Personal Name Classification in web Queries

最新推荐文章于 2024-01-16 11:14:10 发布

killtayoto

最新推荐文章于 2024-01-16 11:14:10 发布

阅读量1.2k

点赞数

分类专栏：查询意图分类文章标签： classification web 搜索引擎算法扩展微软

本文链接：https://blog.csdn.net/killtayoto/article/details/6077140

版权

该博客探讨了在web查询中的人名识别问题，由于查询通常较短，传统机器学习方法不适用。作者提出了一种基于概率字典和人名语法的解决方案，包括离线计算词属于姓或名的概率和在线利用语法计算查询为人名的概率。此方法包括片段共现、二元共现等统计方法和语法分类器。

摘要由CSDN通过智能技术生成

作为命名实体识别的一个很特殊的类别，人名识别已经被提过很多次了。但是通常我们说得人名识别都是长文本中的人名识别，也就是人名是处于一个上下文中的。这样的话一些传统的机器学习方法可能就很管用了。但是在web查询中，查询通常都是很短的，也就是很难直接得到上下文，该怎么识别查询是人名呢？今天看了一个论文《Personal Name Classification in web Queries》，据说也是第一篇研究web查询中的人名识别问题的。翻译过来是《web查询中的人名分类》，作者是微软的Dou Shen等。

摘要

人名识别在现在的搜索引擎中越来越受到重视，但是web查询通常非常的短，传统的有监督的机器学习算法不能够直接被利用。一个替代的方法就是用查字典的方法，这个我想都知道，当然也知道字典大小也是一个矛盾。为了解决这个问题，本文提出来一个方法，它基于建立一个带有概率的人名串字典以及人名语法。为了建立一个人名概率字典，本论文介绍4种方法，为每个串得到一个它属于人名类别的概率。

因为web查询中的信息的稀疏，很难得到足够的特征来应用于传统的分类算法。为了解决这个问题，我们介绍一个基于构建人名串概率字典的方法来折中P和R。给定一个候选的人名列表，我们用几种方法来为这些词打分。有了这个概率字典，我们再利用语法来计算一个查询属于人名的概率。