小学生作文数据集处理（数据清洗）

最新推荐文章于 2023-04-17 20:35:45 发布

嗷呜酱

最新推荐文章于 2023-04-17 20:35:45 发布

阅读量705

点赞数 2

分类专栏：项目实训记录日志文章标签：自然语言处理大数据

本文链接：https://blog.csdn.net/qq_39898307/article/details/106840068

版权

数据清洗相关准备

目标
针对合并的后的作文数据集，需要进行进一步的数据清洗，使得每一个行是一个段落，且标点符号的使用必须正确。只有经过数据清洗，才能保证模型的训练不受影响，脏数据可能会导致训练的模型准确率低，甚至训练出错的模型
语言
python
开发工具
jupyter notebook

数据清洗步骤

读取文件
读取源数据文件并创建目标数据文件

f1=open(r'C:\Users\langgoubao\Desktop\Senior_data.txt','r',encoding='utf-8')#打开源文件
f=open(r'C:\Users\langgoubao\Desktop\Senior.txt','w',encoding='utf-8')#打开写入文件

针对每一行数据开始处理
遍历源数据文件的每一行，判断是否为空行，如果不是空行就开始处理，是空行则直接循环到下一行。

for line in file.readlines():    
    if line.split():    #过滤空行 （不是空行，开始处理）

删去在合并过程中因为转码出现的不规则字符

因为转码问题，或者本身作文中存在的问题，有很多不规则符号，比如多个问号相连接，还存在一些英文的标点，需要将其转化为中文的标点。

ch=['？？？','? ? ?','??','???', ',',<

最低0.47元/天解锁文章

嗷呜酱

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
小学生作文数据集处理（数据清洗）

数据清洗相关准备目标针对合并的后的作文数据集，需要进行进一步的数据清洗，使得每一个行是一个段落，且标点符号的使用必须正确。只有经过数据清洗，才能保证模型的训练不受影响，脏数据可能会导致训练的模型准确率低，甚至训练出错的模型语言python开发工具jupyter notebook数据清洗步骤读取文件读取源数据文件并创建目标数据文件f1=open(r'C:\Users\langgoubao\Desktop\Senior_data.txt','r',encoding='utf-8')#
复制链接

扫一扫

专栏目录