NLP中文短文本处理记录（一）

最新推荐文章于 2024-06-02 14:40:02 发布

lzw2016

最新推荐文章于 2024-06-02 14:40:02 发布

阅读量3.7k

点赞数 2

分类专栏： NLP自然语言处理记录文章标签：数据处理 nlp

本文链接：https://blog.csdn.net/lzw2016/article/details/79770428

版权

- - 数据清洗
  - 更新
- NLP短文本处理

数据清洗

写代码前要想好数据该用什么格式输出，最好在纸上画出来，然后想如何能实现

更新

read_csv()读取含中文的csv文件时，encoding='utf-8'或'gb18030'，
会遇到有的行无法读出，增加参数error_bad_lines=False

处理不规范的json文件

import json
mess=[]
with open('谣言.json','r',encoding='utf-8')as f:
  lines=f.readlines()
  i=0
  for line in lines:
    print(line)
    data=json.loads(line)
    mess.append(data)
    #i+=1
    #if i>200:
      #break
print(mess)

莫凡Python

NLP短文本处理

强烈推荐KDnuggets系列数据分析、NLP、机器学习文章

系列NLTK文章，没看

(第一天参考文章)[https://blog.csdn.net/eastmount/article/details/50473675]

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lzw2016

关注关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
NLP中文短文本处理记录（一）

数据清洗更新NLP短文本处理(第一天参考文章)[https://blog.csdn.net/eastmount/article/details/50473675]总结以上两个Tip如何删除停用词NLP之文本清洗NLP一些常用词待读文章第二天学习封装中文分词数据清洗写代码前要想好数据该用什么格式输出，最好在纸上画出来，然后想如何能实...
复制链接

扫一扫