小学生作文数据集处理(数据清洗)

数据清洗相关准备

  • 目标
    针对合并的后的作文数据集,需要进行进一步的数据清洗,使得每一个行是一个段落,且标点符号的使用必须正确。只有经过数据清洗,才能保证模型的训练不受影响,脏数据可能会导致训练的模型准确率低,甚至训练出错的模型
  • 语言
    python
  • 开发工具
    jupyter notebook

数据清洗步骤

  • 读取文件
    读取源数据文件并创建目标数据文件
f1=open(r'C:\Users\langgoubao\Desktop\Senior_data.txt','r',encoding='utf-8')#打开源文件
f=open(r'C:\Users\langgoubao\Desktop\Senior.txt','w',encoding='utf-8')#打开写入文件
  • 针对每一行数据开始处理
    遍历源数据文件的每一行,判断是否为空行,如果不是空行就开始处理,是空行则直接循环到下一行。
for line in file.readlines():    
    if line.split():    #过滤空行 (不是空行,开始处理)
  • 删去在合并过程中因为转码出现的不规则字符

因为转码问题,或者本身作文中存在的问题,有很多不规则符号,比如多个问号相连接,还存在一些英文的标点,需要将其转化为中文的标点。

ch=['???','? ? ?','??','???', ',',<
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值