Baidu NLP词法分析工具LAC使用体验

papaofdoudou

已于 2022-05-08 21:51:22 修改

阅读量2.6k

点赞数 9

分类专栏：工程人工智能文章标签：自然语言处理人工智能 nlp

于 2022-05-08 13:50:10 首次发布

本文链接：https://blog.csdn.net/tugouxp/article/details/124646118

版权

人工智能同时被 2 个专栏收录

156 篇文章 17 订阅

订阅专栏

工程

52 篇文章 1 订阅

订阅专栏

LAC全称Lexical Analysis of Chinese，是百度自然语言处理部研发的一款联合的词法分析工具，实现中文分词、词性标注、专名识别等功能。该工具具有以下特点与优势：

效果好：通过深度学习模型联合学习分词、词性标注、专名识别任务，词语重要性，整体效果F1值超过0.91，词性标注F1值超过0.94，专名识别F1值超过0.85，效果业内领先。
效率高：精简模型参数，结合Paddle预测库的性能优化，CPU单线程性能达800QPS，效率业内领先。
可定制：实现简单可控的干预机制，精准匹配用户词典对模型进行干预。词典支持长片段形式，使得干预更为精准。
调用便捷：支持一键安装，同时提供了Python、Java和C++调用接口与调用示例，实现快速调用和集成。
支持移动端: 定制超轻量级模型，体积仅为2M，主流千元手机单线程性能达200QPS，满足大多数移动端应用的需求，同等体积量级效果业内领先。

安装与使用

LAC是以PYTHON包的形式提供服务的，安装非常简单，基于anaconda环境，执行如下命令即可：

 pip install lac

编写测试用例：

分词/切词用例：

from LAC import LAC

# 装载分词模型
lac = LAC(mode='seg')

# 单个样本输入，输入为Unicode编码的字符串
text = u"LAC是个优秀的分词工具"
seg_result = lac.run(text)

# 批量样本输入, 输入为多个句子组成的list，平均速率会更快
texts = [u"LAC是个优秀的分词工具", u"百度是一家高科技公司"]
seg_result = lac.run(texts)
print(seg_result)
texts = [u"豆豆很帅", u"豆豆爸爸是一名工程师"]
seg_result = lac.run(texts)
print(seg_result)

分词/切词运行结果：

词性标注与实体识别：

from LAC import LAC

# 装载LAC模型
lac = LAC(mode='lac')

# 单个样本输入，输入为Unicode编码的字符串
text = u"LAC是个优秀的分词工具"
lac_result = lac.run(text)

# 批量样本输入, 输入为多个句子组成的list，平均速率更快
texts = [u"LAC是个优秀的分词工具", u"百度是一家高科技公司"]
lac_result = lac.run(texts)
print(lac_result)
texts = [u"豆豆很帅", u"豆豆爸爸是一名工程师"]
seg_result = lac.run(texts)
print(seg_result)

输出结果：

每个句子的输出其切词结果word_list以及对每个单词的标注tags_list，其格式为（word_list, tags_list)

词性和专名类别标签集合如下表，其中我们将最常用的4个专名类别标记为大写的形式：

词语重要性分析：

from LAC import LAC

# 装载词语重要性模型
lac = LAC(mode='rank')

# 单个样本输入，输入为Unicode编码的字符串
text = u"LAC是个优秀的分词工具"
lac_result = lac.run(text)

# 批量样本输入, 输入为多个句子组成的list，平均速率更快
texts = [u"LAC是个优秀的分词工具", u"百度是一家高科技公司"]
lac_result = lac.run(texts)
print(lac_result)
texts = [u"豆豆很帅", u"豆豆爸爸是一名工程师"]
seg_result = lac.run(texts)
print(seg_result)

运行结果：