LTP4 文档:https://ltp.readthedocs.io/zh_CN/latest/
Github地址:https://github.com/HIT-SCIR/ltp
哈工大LTP官网模型下载:https://ltp.ai/download.html
安装方法:
pip install ltp
案例代码
from ltp import LTP
ltp = LTP() # 默认加载 Small 模型,下载的路径是:~/.cache/torch/ltp
sentences = "文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子,一个段落或者一个篇章"
f = ltp.sent_split([sentences]) # 分句
seg, hidden = ltp.seg([sentences]) # 分词
pos = ltp.pos(hidden) # 词性标注
# 符号说明:https://ltp.readthedocs.io/zh_CN/latest/appendix.html#id2
ner = ltp.ner(hidden) # 命名实体识别
# 符号说明:https://ltp.readthedocs.io/zh_CN/latest/appendix.html#id3
srl = ltp.srl(hidden) # 语义角色标注
# 符号说明:https://ltp.readthedocs.io/zh_CN/latest/appendix.html#id4
dep = ltp.dep(hidden) # 依存句法分析
# 符号说明:https://ltp.readthedocs.io/zh_CN/latest/appendix.html#id5
sdp = ltp.sdp(hidden) # 语义依存分析
# 符号说明:https://ltp.readthedocs.io/zh_CN/latest/appendix.html#id6
注意命名实体识别任务
目前测试发现“命名实体识别”任务效果不太好,其他都不错,特别是垂直领域的命名实体识别需要单独自行解决