基于主题策略的实体识别准确率优化

本文探讨了如何运用主题模型,特别是LDA,来优化命名实体识别的准确率。通过解决一词多义问题,利用文档的语义信息进行实体消歧。文章详细介绍了开发环境、语料库的预处理、主题抽取(具体和抽象主题)、LDA模型的运用以及实体消歧策略,最后提到了评估方法。
摘要由CSDN通过智能技术生成

      传统的命名实体识别中,主要是基于规则和词典的方法,在实体识别过程中没有给出具体的语义信息,因此会存在一词多义和多词一义的问题,对实体的消歧就是提升实体识别准确率的关键部分。

主题模型是对文档隐含的主题进行建模的方法,是语义挖掘的利器,既可以衡量文档之间的语义相似性,还可以解决多义词的问题。在主题模型中,主题是一个概念,表现为一系列相关的词,通过命名实体在不同主题下的条件概率分布来达到实体消歧的目的。如“苹果”这个词可能是水果,也可能指苹果公司。通过求出的“词语-主题”概率分布,我们就可以知道“苹果”都属于哪些主题。LDA(Latent Dirichlet Allocation)是其中应用最广泛的模型。

 

二、开发环境

l  Windows7 i5处理器,2.50GHz

l  Python3.6

l  Genism主题模型库

l  Sklearn机器学习库

l  Jieba中文分词

l  Hadoop集群

 

三、语料库与预处理

1.      语料库的获取:

a)        语料库的数据主要来自58招聘职位新增日志

b)        数据位于集群中的位置:/home/hdp_lbg_s

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值