python文本处理
文章平均质量分 76
风兮177
这个作者很懒,什么都没留下…
展开
-
python中文词云生成
一、词云“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。二、python实现中文词云显示1、需要准备的python库包括,matplotlib,jieba和wordcloud,可以通过pip install ---进行安装。2、代码实现#原创 2017-05-12 18:46:24 · 13584 阅读 · 0 评论 -
python 中文分词工具
python 中文分词工具jieba,https://github.com/fxsjy/jiebajieba_fast,https://github.com/deepcs233/jieba_fastnltk,https://github.com/nltk/nltkFoolNLTK,https://github.com/rockyzhengwu/FoolNLTK/blob/master/...原创 2018-06-24 16:30:03 · 11556 阅读 · 0 评论 -
直接快速下载NLTK数据
直接快速下载NLTK数据直接下载NLTK的数据速度很慢,这里提供NLTK数据集,直接下载即可。或者选择下列百度云下载: 链接:https://pan.baidu.com/s/1fZa0ouEkIyUk9S4tuEvRdw 密码:z8n8安装nltk查看nltk数据包位置确认是否下载成功NLTK数据安装nltkpip install nltk如需要快速安装,可以选择...原创 2018-07-27 21:34:42 · 23972 阅读 · 16 评论 -
python自然语言处理(NLP)1------中文分词1,基于规则的中文分词方法
python中文分词方法之基于规则的中文分词目录常见中文分词方法推荐中文分词工具参考链接一、四种常见的中文分词方法:基于规则的中文分词基于统计的中文分词深度学习中文分词混合分词方法基于规则的中文分词包括, 正向最大匹配法,逆向最大匹配法和双向最大匹配法。 最大匹配方法是最有代表性的一种基于词典和规则的方法,其缺点是严重依赖...原创 2018-08-11 18:14:19 · 5966 阅读 · 0 评论