PYNLPIR中文分词,生成词云图片

NLPIR介绍

官方网站:NLPIR-ICTCLAS汉语分词系统

NLPIR汉语分词系统

主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

功能

中英文混合分词功能

自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

关键词提取功能

采用交叉信息熵的算法自动计算关键词,包括新词与已知词,下面是对十八届三中全会报告部分内容的关键词提取结果。

新词识别与自适应分词功能

从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。

用户专业词典功能

可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。

PYNLPIR

pynlpir是Python下的API,可使用pip直接安装

启动or关闭API
pynlpir.open()
pynlpir.close()
添加用户字典
pynlpir.nlpir.ImportUserDict(b'xxx.txt')
最重要滴,分词
text_segment 
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是一门流行的编程语言,有许多强大的库和工具可以用来处理中文文本数据,其中包括中文分词和词云制作。 中文分词是将中文文本按照词语划分成一个个单独的词汇,是自然语言处理领域的重点问题之一。在Python中,最常用的中文分词库是jieba库。下面是一个简单的中文分词例子: ```python import jieba text = "我喜欢用Python自然语言处理" words = jieba.cut(text) for word in words: print(word) ``` 这段代码将会输出分词后的结果: ``` 我 喜欢 用 Python自然语言处理 ``` 接下来是词云制作。词云是一种用来展示文本数据的可视化图形,它将文本中出现频率高的关键词以不同的字体大小和颜色呈现在图形中。在Python中,我们可以使用wordcloud库来制作词云。下面是一个简单的词云制作例子: ```python from wordcloud import WordCloud import jieba text = "我喜欢用Python自然语言处理" # 使用jieba进行中文分词 words = jieba.cut(text) words_list = " ".join(words) # 生成词云 wordcloud = WordCloud(width=800, height=600, background_color="white").generate(words_list) # 保存词云图 wordcloud.to_file("wordcloud.png") ``` 这段代码将会生成一张名为wordcloud.png的词云图。如果你想要将词云显示在Jupyter Notebook中,可以使用下面的代码: ```python from IPython.display import Image Image(filename="wordcloud.png") ``` 这样就可以在Jupyter Notebook中显示词云图了。 以上就是用Python中文分词和词云制作的简单例子,希望能对你有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值