本篇博客主要介绍几个中文文本分析的工具。
1 百度API
百度智能云上将自然语言处理分成了四个模块,如下图所示,分别为语言处理基础技术,语言处理应用技术,智能对话定制平台,文本审核。每一个模块都有很多功能,大家可以自行进入网页进行查看,根据自己的需求选取。
百度API 的使用方法(Python调用)前边已经整理好,参考网址:https://blog.csdn.net/weixin_40678266/article/details/105483610
2 SnowNLP
SnowNLP是Python分析中文文本的包。功能很丰富,包括中文分词,词性标注,情感分析,文本分类,转换成拼音,繁体转简体,提取文本关键词及摘要,信息衡量(TF-IDF),文本相似等。
具体的使用可以参考document,这里要提一下,SnowNLP的分词功能是不如jieba的,举例如下:
#Snownlp分词对比jieba分词
from snownlp import SnowNLP
import jieba
text_jieba = "用起来不太好"
s_text = SnowNLP(text_jieba)
print(s_text.words)
jieba.lcut(text_jieba)
#result of snownlp:['用&