Automatic Web Query Classification Using Labeled and Unlabeled Training Data

这篇论文是05年的,相比来说是比较早的一篇论文,基本上摆脱了人工分类的阶段,开始探讨自动分类的阶段了。论文题目是《Automatic Web Query Classification Using Labeled and Unlabeled Training Data》, 翻译过来是《利用标记和为标记训练数据的查询自动分类》,作者是Illinois的Steven。

 

摘要

论文将要讨论三种独立的方法来进行查询主题的归类:人工标记的查询、有监督的分类、有限选择性。最后会将这三个方法组合起来。在实验部分,将分别进行性能的测试,并且最终显示组合起来的分类准确率会高很多,但是只有46%。

 

简介

如果能够成功的将一个用户查询映射到一个主题目录中,尤其是这些搜索引擎擅长的目录,必将带来很大的性能的提升。比如说查询的分流、基于主题的查询重构以及目标广告等等。

 

方法论

总的来说,本论文中的分类框架是基于准确率的,融合一些能够提高召回率的及其学习方法。

  • 准确匹配方法用了18个人工分类的目录,但是这只是占据了查询的很小的一部分,而且只是对于常见的查询有效果。缺点是它代价很高,召回率很低。
  • 因此,将这些准确分类的查询分为两种用法。一种是将其看成有监督学习的训练基。论文为每个类别训练了一个感知器分类器,每一个是一个二元的分类器,本类别和其他17个类别。每个感知器的阈值最后都会被优化成常数,但是发现它能够有很高的召回率,但是准确率很低。
  • 为了更好地提高召回率,引入了计算语言学中的有限选择性。这个概念理解为“词x非常喜欢一个属于类别u的词y”。如果是这样,u就是一个很好的预测,如果y在这种上下文中很模糊。稳重的讲解我没有怎么看懂,这个选择优先性需要再查阅相关的资料。
  • 对于怎么组合在一起的,也没有怎么详尽的说明。

结果分析

结果的评价采用了微f1,微准确率和微招汇率的方法,结果显示组合在一起的各个指标都要好很多。

 

 

这个论文提到了三种方法,应该都是很早以前的了,而且论文非常的短,只有两页,所以很多方法我也没有怎么看懂,需要查阅一些相关的资料才能知道。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值