创新实训个人工作日志(二)

本周主要对数据集进行了搜集与清洗整理

以下是原本的数据集样子
在这里插入图片描述

因为是从网上爬取所以内容零散
清洗转换格式之后
在这里插入图片描述
然后通过jieba库的分词处理和matplotlib.pyplot的图形化显示我们可以得到训练集中文本的长度分布如下图:
在这里插入图片描述
我们可以看到词的长度主要集中在5左右,因此将数据处理后,将6作为每个句子的长度多的截取,少的补全。
完成数据的清洗接下来需要对改清洗数据进行与处理在配合模型就可以开始训练了,预计在本周取得训练结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值