Personal Name Classification in web Queries

该博客探讨了在web查询中的人名识别问题,由于查询通常较短,传统机器学习方法不适用。作者提出了一种基于概率字典和人名语法的解决方案,包括离线计算词属于姓或名的概率和在线利用语法计算查询为人名的概率。此方法包括片段共现、二元共现等统计方法和语法分类器。
摘要由CSDN通过智能技术生成

作为命名实体识别的一个很特殊的类别,人名识别已经被提过很多次了。但是通常我们说得人名识别都是长文本中的人名识别,也就是人名是处于一个上下文中的。这样的话一些传统的机器学习方法可能就很管用了。但是在web查询中,查询通常都是很短的,也就是很难直接得到上下文,该怎么识别查询是人名呢?今天看了一个论文《Personal Name Classification in web Queries》,据说也是第一篇研究web查询中的人名识别问题的。翻译过来是《web查询中的人名分类》,作者是微软的Dou Shen等。

 

摘要

人名识别在现在的搜索引擎中越来越受到重视,但是web查询通常非常的短,传统的有监督的机器学习算法不能够直接被利用。一个替代的方法就是用查字典的方法,这个我想都知道,当然也知道字典大小也是一个矛盾。为了解决这个问题,本文提出来一个方法,它基于建立一个带有概率的人名串字典以及人名语法。为了建立一个人名概率字典,本论文介绍4种方法,为每个串得到一个它属于人名类别的概率。

因为web查询中的信息的稀疏,很难得到足够的特征来应用于传统的分类算法。为了解决这个问题,我们介绍一个基于构建人名串概率字典的方法来折中P和R。给定一个候选的人名列表,我们用几种方法来为这些词打分。有了这个概率字典,我们再利用语法来计算一个查询属于人名的概率。

 

相关研究

介绍了很多的研究成果,但是所有的这些方法都依赖于丰富的上下文信息。还有一个就是我以前所说的意图分类里面的方法,通过点击信息或者利用搜索引擎的返回结果来丰富特征,但是一个是对于新来的查询无能为力,一个对于在线算法来说非常的耗时。本方法包括在线和离线两个步骤。离线步骤中,我们使用集中算法来建立概率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值