LAC功能在于中文分词、词性标注、NER,对于基本的词法分析效果还是蛮不错的,如下为其对应词性和ner标签:
写这篇博客的目的也是在于进一步梳理思路和过程,毕竟当时还是踩了一些坑的,写下来,于人于己都方便!
话不多说,开始啦~
其实吧,LAC如果通过python调用,十分便捷,如LAC github https://github.com/baidu/lac所示:
Python3 pip安装:pip install lac -i https://mirror.baidu.com/pypi/simple
然后就可以import使用啦:
from LAC import LAC
# 装载分词模型
lac = LAC(mode='seg')
text = "LAC是个优秀的分词工具"
seg_result = lac.run(text)
# 批量样本输入, 输入为多个句子组成的list,平均速率会更快
texts = ["LAC是个优秀的分词工具", "百度是一家高科技公司"]
seg_result = lac.run(texts)
但java的调用比较麻烦,所以,正题开始,linux上实现,共分两大步:
1.Paddle依赖库准备:LAC是基于Paddle训练所得的模型,需依赖Paddle的预测库
(1)直接下载