THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
符号 | 含义 | 符号 | 含义 |
---|---|---|---|
n | 名词 | np | 人名 |
mq | 数量词 | f | 方位词 |
m | 数词 | q | 量词 |
ni | 机构名 | r | 代词 |
v | 动词 | a | 形容词 |
w | 标点 | d | 副词 |
p | 介词 | c | 连词 |
u | 助词 | y | 语气词 |
e | 叹词 | o | 拟声词 |
i | 成语 | x | 其他 |
j | 简称 | h | 前接成分 |
k | 后接成分 | g | 语素 |
s | 处所词 | w | 标点符号 |
np | 人名 | ns | 地名 |
ni | 机构名称 | nx | 外文字符 |
nz | 其它专名 | h | 前接成分 |
安装方式
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple thulac