小学生作文集的数据处理生成_生成作文、故事数据集-CSDN博客

本文链接：https://blog.csdn.net/weixin_40711135/article/details/106912459

小学生作文集的数据处理

1.生成一逗到底数据集
2.生成模拟少量错误标点的小学生作文数据集
3.训练模型的确定
4.to do list
5.参考文献

1.生成一逗到底数据集

低年龄阶段的小学生习惯于所有标点符号全部为逗号，根据小学生范文，修改其中的所有标点符号为逗号来模拟一逗到底数据集：
调用中文标点包：

from zhon.hanzi import punctuation

对高低年级的作文集分别做如下处理（例子为高年级数据集的处理）
首先遍历每一行，再接着遍历每一行中的字符，存在于标点符号包中一致的字符，则替换成逗号

punctuation_str = punctuation
print("中文标点符合：", punctuation_str)

file=open(r'Senior.txt','r',encoding='utf-8')#打开源文件
f=open(r'Senior_comma.txt','w',encoding='utf-8')#打开写入文件
for line in file.readlines():    
    if line.split():    #过滤空行 
        line=line.replace('/n', '，')
        for i in punctuation:
            if i in line:
                line = line.replace(i, '，')
        print(line)
        f.write(line)
f.close()
file.close(）

原始数据集效果：
在这里插入图片描述
生成数据集效果：

2.生成模拟少量错误标点的小学生作文数据集

对于尤其为高年级的小学生，作文中的标点符号错误更多的可能是少量的错误连接句子，和误用，因此根据此情况生成相应的数据集，用于后面的系统输入学生作文的模拟样本，对整个系统的标点符号更正效果进行可视化的查看：

file=open(r'senior_data.txt','r',encoding='utf-8')#打开源文件
f=open(r'Senior_wrongplace.txt','w',encoding='utf-8')#打开写入文件

list=[]


for line in file.readlines():
    a = 0
    for i in line:
        a=a+1
    if line.split():    #过滤空行
        line=line.replace('/n', '')
        for i in punctuation:
            if i in line:
                temp = i
                lines = line.split(i)
                print(lines)
                for l in lines:
                    number = random.randint(1,a)
                    new1=""
                    for p1 in lines[:number]:
                        new1 += str(p1)
                    new2= ""
                    for p2 in lines[number:]:
                        new1 += str(p2)
                    new = str(new1+str(temp)+new2)
        f.write(new)
f.close()
file.close()