1、查找数据集
为了下一步训练、测试、评估模型,在网络上查找大量的数据集,因为小学生的作文水平和我们日常用的自然语言处理数据集还是有一定的差距,为了使得模型修正准确率提高,我们决定采用和小学生作文水平相当的训练集。找的部分数据集如下:
2、合并数据集
为了对不同年龄段的学生作文更有针对性的修正 ,我们将数据集进行合并、处理,为1-2年级,3-4年级,5-6年级的txt格式文档。
PS
这里提供源数据(doc格式)在百度网盘中,感兴趣的可以下载
链接:https://pan.baidu.com/s/1LMsxKT54PYSi0-8Hsyqy3w
提取码:1tqp