基于python的几种中文分词-词性获取
根据当前网络上关于中文分词的python包,先取以下四种方式:
- jieba分词;
- 清华大学的THULAC;
- HanLP;
- pynlpir.
1.测试环境
系统:win10;
python版本:python3.6;
已经配好的环境变量。
2.安装与使用
2.1 jieba分词
安装:在dos窗口中:pip install jieba
安装即可
使用:在python程序中引入即可:import thulac
获取分词词语词性:
#通过jieba分词获取词的属性
import jieba.posseg as peg
in_str=