DataFountain疫情情绪分析（一）---数据预处理

最新推荐文章于 2022-07-02 20:58:17 发布

Y·Not·Try

最新推荐文章于 2022-07-02 20:58:17 发布

阅读量1.9k

点赞数 1

分类专栏：深度学习数据比赛 NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40992688/article/details/104570768

版权

一，数据读取

1.下载到手里面的数据如果直接使用pandas或者numpy读取会出现各类编码问题，使用各种方法测试均失效，解决办法：先使用excel内置工具将文档转为csv-utf8格式，再使用pandas读取相关数据。

2.相对于numpy的loadtxt，更推荐使用pandas的readcsv，少了相当一部分麻烦。

二，数据预处理

1.获取的文本中，对于情感标签官方规定只有-1，0，1，但是拿到手里面的数据有部分错误信息，比如标记值标出了2，或者没标记，这里我们简单认为这些数据失效，全部归为未标记数据。

2.此外，由于使用pandas读取时未指定列类型（即使指定也会因为部分错误数据报类型无法转换错误），所以后面需要将类型转化为float型，这里我使用float32类型。

3.由于处理的是中文，所以需要jieba分词工具进行分词处理，对于分词的结果可以加入到原始datafram中，代码使用

arr['分词内容'] = arr.微博中文内容.apply(lambda x:" ".join(jieba.cut(x)))

即可对每一行的中文进行分词。

注：分词之前，需要将arr转为str类型，否则jieba会报错，这是由于读取的数据默认为float型。

注ÿ

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。