NLP可视化
文章平均质量分 59
自然语言处理中常用到的的一些可视化分内容。
Font Tian
某公司山东分公司研发中心主管。目前主要工作为ABC融合,主要业余目标为发论文,玩开源。
展开
-
Python + wordcloud + jieba 十分钟学会生成中文词云
代码部分来源于其他人的博客,但是因为bug或者运行效率的原因,我对代码进行了较大的改变代码第一部分,设置代码运行需要的大部分参数,你可以方便的直接使用该代码而不需要进行过多的修改第二部分为jieba的一些设置,当然你也可以利用isCN参数取消中文分词第三部分,wordcloud的设置,包括图片展示与保存如果你想用该代码生成英文词云,那么你需要将isCN参数设置为0,并且提供英文的停用词表,但是我更推荐你使用Python词云 worldcloud 十五分钟入门与进阶。原创 2017-05-27 17:00:10 · 51430 阅读 · 28 评论 -
Python词云 wordcloud 十五分钟入门与进阶
基于Python的词云生成类库,很好用,而且功能强大.博主个人比较推荐写这篇文章花费一个半小时,阅读需要十五分钟,读完本篇文章后您将能上手wordcloud中文词云与其他要点,我将会在下一篇文章中介绍这段代码主要来自wordcloud的github,你可以在github下载该例子""""""Parameters----------"""Parameters----------"""try:"""# 自定义所有单词的颜色。原创 2017-05-26 23:39:55 · 94364 阅读 · 18 评论 -
Python 任意中文文本生成词云 最终版本
前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也可以手动添加或者通过txt添加用户词库.code中已经有十分详细的设置说明与代码解释,如果你想进一步学习其详细内容,你可以参考我在第二部分提供的博客列表想要进一步学习使用的参考博客列表Python词云 w原创 2017-06-10 15:20:49 · 8153 阅读 · 6 评论 -
封装汉语自然语言处理中的常用方法(附代码:生成中文词云)
前叙该文章写作共花费二十分钟,阅读只需要七分钟左右,读完该文章后,你将学会使用少量代码,将中文小说,中文新闻,或者其他任意一段中文文本生成词云图背景在进行汉语自然语言处理时候,经常使用的几个方法,分词,清除停用词,以及获取新词,为了方便使用我们将其封装. 这样我们就可以通过一行简单的代码获取清除停用词并和英语一样分词完毕,并以空格分割的汉语字符串,或者还可以获得其他功能.至于之所以加上这个例子,是原创 2017-07-28 23:40:04 · 4523 阅读 · 0 评论 -
NLTK 词频统计(一) 词频统计,绘图,词性标注
内容简介代码一,笔记简略版本代码二,词频统计与pandas集合,分词词性提取与词频统计结合代码一import FontCN_NLPtools as fts引用的是我自己写的一个类,是对我常用的一些方法的封装,code已经上传# 解决乱码问题import matplotlib as mplmpl.rcParams[u'font.sans-serif'] = [u'KaiTi']mpl.rcParams[u原创 2017-07-29 21:27:51 · 11108 阅读 · 0 评论 -
实例使用pyhanlp创建中文词云
使用pyhanlp创建词云去年我曾经写过一篇文章Python + wordcloud + jieba 十分钟学会用任意中文文本生成词云(你可能觉得这和wordcloud中官方文档中的中文词云的例子代码很像,不要误会,那个也是我写的)现在我们可以仿照之前的格式在写一份pyhanlp版本的。对于wordcloud而言,因为原生支持的英文是自带空格的,所以我们这里需要的是进行分词和去停处理,然后将...原创 2018-09-25 22:18:51 · 1530 阅读 · 0 评论