数据清洗
写代码前要想好数据该用什么格式输出,最好在纸上画出来,然后想如何能实现
更新
read_csv()读取含中文的csv文件时,
encoding='utf-8'或'gb18030'
,
会遇到有的行无法读出,增加参数error_bad_lines=False
处理不规范的json文件
import json
mess=[]
with open('谣言.json','r',encoding='utf-8')as f:
lines=f.readlines()
i=0
for line in lines:
print(line)
data=json.loads(line)
mess.append(data)
#i+=1
#if i>200:
#break
print(mess)
NLP短文本处理
强烈推荐KDnuggets系列数据分析、NLP、机器学习文章
(第一天参考文章)[https://blog.csdn.net/eastmount/article/details/50473675]
推荐How to solve 90% of NLP problems: a step-by-step guide