NLP
文章平均质量分 94
自然语言处理
Sun_Raiser
csdn:https://blog.csdn.net/Sun_Raiser
知乎:https://www.zhihu.com/people/no-one-71-61
个人网站(开发中):https://sunraiser.top
展开
-
NLP 处理文本解决emoji、空白符及特殊字符问题
NLP 处理文本解决emoji、特殊文字和空白符问题爬虫爬取的文本中包含一些不需要的,例如空字符和emoji等。在 写入csv文件时,终端报错如下:UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\u200b’ in position 7: illegal multibyte sequence空白符问题如何移除文本中不可见的字符,例如 \u200b是一个无法在txt文本显示的字符。手动删除也删不掉。def remove_uppr原创 2022-04-17 13:27:13 · 4418 阅读 · 0 评论 -
NLP LDA 主题模型 实践(使用中文)
使用gensim实现中文主题分类。我的环境是jupyter notebook。更多API查看 [官网](https://radimrehurek.com/gensim/)以下是我的程序及文件。文件目录```shellE:.├─.ipynb_checkpoints├─assets└─out ```> assets 模型训练需要使用的文件> out 模型训练输出的文件> 包括数据可视化和日志文件等等原创 2022-04-09 15:14:49 · 3191 阅读 · 0 评论