技术的发展给人们生活带来便利的同时,也由于其信息量越来越大、时效性越来越强,给用户的信息获取和数据处理工作造成了很大的困难。因此,高效、准确的信息检索和过滤技术越来越受到人们的重视。信息获取方面存在的主要问题是目前的检索和过滤技术大多采用的是基于关键词的匹配方法,将用户输入的查询词对文档进行匹配。而由于互联网上的这些信息大部分都以短文本为主,具有内容特征极稀疏、强噪声等特点,这种方式下用户往往得不到所需的信息,为数据挖掘提出了更大的挑战。为了应对上述挑战,进行语义概念扩展,实现基于语义的信息检索、过滤和扩展短文本的内容特征成为近年的研究热点,出现了以利用WordNet、HowNet为代表的人工知识库和以Wikipedia为代表的开放语料进行语义概念扩展的方法。但是人工知识库一般由人工搜集和构建,比较费时,而且仅仅局限于部分领域,更新和扩展不及时;现有的基于开放语料的语义概念扩展方法在日益增大的数据规模下也无法得到有效应用。
针对以上问题提出了基于大规模非负矩阵分解的短文本语义概念扩展方法,主要探讨了语义概念关联、语义概念扩展和大规模非负矩阵分解等关键问题,主要工作如下:
1. 提出一种概念关联的方法将短文本中的词项和开放知识库中的概念进行关联。一方面,短文本中会有很多不同的词,不是所有的词都需要进行关联和语义概念扩展的;另一方面,由于同义词和多义词的存在,短文本中的词可能与知识库中的多个概念匹配上,需要进行概念的语义消歧,选出与上下文最相关的概念进行链接。工作中主要采用LR模型进行概念关联剪枝,筛选出需要进行关联的词集。在概念的消歧阶段,采用基于上下文互信息的方法选择与上下文最相关的概念进行链接。
2. 提出了一种概念扩展方法对概念进行语义扩展。传统的人工知识库更新速度慢,构建成本高,而且局限于部分领域,工作中提出的基于开放知识库的方法很好的克服了上述缺点。首先基于开放知识库构建概念之间的关联矩阵,然后利用非负矩阵分解的方法计算概念之间的语义相似度,并利用语义相似的概念对短文本中已关联链接的概念进行扩展。本文实现的大规模非负矩阵分解的方法可应用于基于大规模开放知识库的语义概念扩展。
3. 实现了一种基于大规模非负矩阵分解的短文本语义概念扩展系统。利用LR剪枝模型和上下文互信息的方法来选择短文本中词项链接到的开放知识库中的概念;在概念语义扩展阶段,用Hadoop Streaming 实现了大规模非负矩阵分解的方法计算概念之间的语义相似度,提高了本方法在大规模数据集合上的可扩展性。
文章是我的毕业设计,基于wikipedia知识库实现对短文本的语义概念扩展,增加短文本的内容特征,实现的算法主要是基于Non-negative matrix factorization with sparseness constraint 的并行化版本,利用hadoop streaming实现了并行化,并基于l1,l2norm对算法作了改进。实验数据规模为200W(概念)*60W(文档),5个计算节点,迭代一轮15min.