传统的命名实体识别中,主要是基于规则和词典的方法,在实体识别过程中没有给出具体的语义信息,因此会存在一词多义和多词一义的问题,对实体的消歧就是提升实体识别准确率的关键部分。
主题模型是对文档隐含的主题进行建模的方法,是语义挖掘的利器,既可以衡量文档之间的语义相似性,还可以解决多义词的问题。在主题模型中,主题是一个概念,表现为一系列相关的词,通过命名实体在不同主题下的条件概率分布来达到实体消歧的目的。如“苹果”这个词可能是水果,也可能指苹果公司。通过求出的“词语-主题”概率分布,我们就可以知道“苹果”都属于哪些主题。LDA(Latent Dirichlet Allocation)是其中应用最广泛的模型。
二、开发环境
l Windows7 i5处理器,2.50GHz
l Python3.6
l Genism主题模型库
l Sklearn机器学习库
l Jieba中文分词
l Hadoop集群
三、语料库与预处理
1. 语料库的获取:
a) 语料库的数据主要来自58招聘职位新增日志
b) 数据位于集群中的位置:/home/hdp_lbg_s