自然语言处理-如何使用百度的中文开源词法分析工具(LAC) 进行命名实体语料标注 python

最新推荐文章于 2024-08-07 10:01:18 发布

菜园子哇

最新推荐文章于 2024-08-07 10:01:18 发布

阅读量4.6k

点赞数 1

分类专栏：自然语言处理文章标签：命名实体自然语言处理 lac

本文链接：https://blog.csdn.net/cyz52/article/details/95890666

版权

本文介绍了如何利用百度的开源词法分析工具LAC，结合PaddleHub进行命名实体语料的标注。首先需要安装PaddlePaddle和PaddleHub，然后对文本进行分句处理，通过代码进行实体识别，最后将标注结果保存在nerResult文件中，显示LAC在实体识别上的优秀表现。

摘要由CSDN通过智能技术生成

github

https://github.com/baidu/lac

这是百度开源的一个词法分析工具

首先要安装paddlepaddle

pip install paddlepaddle
pip install paddlehub

PaddleHub 是基于 PaddlePaddle 开发的预训练模型管理工具，可以借助预训练模型更便捷地开展迁移学习工作，旨在让 PaddlePaddle 生态下的开发者更便捷体验到大规模预训练模型的价值。

它可以帮助我们下载和使用一个Lac的模型

首先将待处理文本分句换行处理好

上代码

# 导入paddlehub
import paddlehub as hub
# import tqdm

if __name__ == "__main__":
    # 加载名为lac的预训练模型
    textlist = list()
    with open('./nerOriginal.txt', 'r', encoding='utf-8') as f1:
        for line in f1:
            line.replace('\n', '')
            textlist.append(line)

    lac = hub.Module(name="lac")