一、在线分词
1、哈工大主干分析,有词性标记
https://ltp.ai/demo.html
2、百度在线词法分析,也就包含分词
https://ai.baidu.com/tech/nlp_basic/lexical
3、hanlp词法分析
https://hanlp.hankcs.com/
4、结巴(jieba)在线分词
https://app.gumble.pw/jiebademo/
二、离线分词
1、jieba分词
安装与使用
pip install jieba
#使用
import jieba
jieba.cut('NLP分词工具')
2、pkuseg 北京大学开源
安装与使用
pip3 install -U pkuseg
import pkuseg
seg = pkuseg.pkuseg() # 以默认配置加载模型
text = seg.cut('我爱北京天安门') # 进行分词
print(text)
3、百度词法分析
全自动安装: pip install lac
半自动下载:先下载http://pypi.python.org/pypi/lac/,解压后运行 python setup.py install
from LAC import LAC
# 装载分词模型
lac = LAC(mode='seg')
# 单个样本输入,输入为Unicode编码的字符串
text = u"LAC是个优秀的分词工具"
seg_result = lac.run(text)
第二种使用方法 使用paddleHub
lac = hub.Module(name="lac") ### 这些代码在paddle demo下
test_text = ["今天是个好日子", "天气预报说今天要下雨", "下一班地铁马上就要到了"]
# Set input dict
inputs = {"text": test_text}