Automatic Web Query Classification Using Labeled and Unlabeled Training Data

最新推荐文章于 2023-04-23 08:46:19 发布

killtayoto

最新推荐文章于 2023-04-23 08:46:19 发布

阅读量1k

点赞数

分类专栏：查询意图分类文章标签： classification training query web 搜索引擎框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/killtayoto/article/details/5995634

版权

查询意图分类专栏收录该内容

26 篇文章 0 订阅

订阅专栏

这篇论文是05年的，相比来说是比较早的一篇论文，基本上摆脱了人工分类的阶段，开始探讨自动分类的阶段了。论文题目是《Automatic Web Query Classification Using Labeled and Unlabeled Training Data》，翻译过来是《利用标记和为标记训练数据的查询自动分类》，作者是Illinois的Steven。

摘要

论文将要讨论三种独立的方法来进行查询主题的归类：人工标记的查询、有监督的分类、有限选择性。最后会将这三个方法组合起来。在实验部分，将分别进行性能的测试，并且最终显示组合起来的分类准确率会高很多，但是只有46%。

简介

如果能够成功的将一个用户查询映射到一个主题目录中，尤其是这些搜索引擎擅长的目录，必将带来很大的性能的提升。比如说查询的分流、基于主题的查询重构以及目标广告等等。

方法论

总的来说，本论文中的分类框架是基于准确率的，融合一些能够提高召回率的及其学习方法。

准确匹配方法用了18个人工分类的目录，但是这只是占据了查询的很小的一部分，而且只是对于常见的查询有效果。缺点是它代价很高，召回率很低。
因此，将这些准确分类的查询分为两种用法。一种是将其看成有监督学习的训练基。论文为每个类别训练了一个感知器分类器，每一个是一个二元的分类器，本类别和其他17个类别。每个感知器的阈值最后都会被优化成常数，但是发现它能够有很高的召回率，但是准确率很低。
为了更好地提高召回率，引入了计算语言学中的有限选择性。这个概念理解为“词x非常喜欢一个属于类别u的词y”。如果是这样，u就是一个很好的预测，如果y在这种上下文中很模糊。稳重的讲解我没有怎么看懂，这个选择优先性需要再查阅相关的资料。
对于怎么组合在一起的，也没有怎么详尽的说明。

结果分析

结果的评价采用了微f1,微准确率和微招汇率的方法，结果显示组合在一起的各个指标都要好很多。

这个论文提到了三种方法，应该都是很早以前的了，而且论文非常的短，只有两页，所以很多方法我也没有怎么看懂，需要查阅一些相关的资料才能知道。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Automatic Web Query Classification Using Labeled and Unlabeled Training Data

论文将要讨论三种独立的方法来进行查询主题的归类：人工标记的查询、有监督的分类、有限选择性。最后会将这三个方法组合起来。在实验部分，将分别进行性能的测试，并且最终显示组合起来的分类准确率会高很多，但是只有46%。
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。