问答社区的问题分类任务

问答社区的问题分类任务

 

最近在研究问答社区的问题分类任务。问答社区的问题文本一般比较短,很难用常规的文本分类算法来很好的归类。

做了一个新算法。主要考虑两个方面:

 

正确率和召回率。

计算量。

 

正确率和召回率:用微F测度来衡量。与传统分类算法的比较见下图:

 



 

       之所以未同SVM比较,是因为在这个时刻,SVM还在训练过程中……当然我承认我选的数据有点变态,近90w条,并且有数万维的空间向量。希望SVM可以早点出结果LOL。事实上,据2001TREC文本过滤比赛第一的DavidD.Lewis声称,他的比赛程序采用SVMLight作为分类器内核,对英文词汇进行了去词缀处理,但没有去停用词,因此估计特征项大约在20000维左右,用SUN的服务器运行了整整一周,才得到实验结果。OMG~

       至于为何为何kNN比较……其实……基于类文档排名分类的算法就是kNN在语言模型下的一个特例……

 

       计算量:在我的pc机上每秒可以分类近2w个问题文本;

 

       一般的问答服务网站,针对用户的提问,会给出多个可能的类别供用户选择。在我们的系统中,如果为用户提供3个可能的选择类别,则有93%以上的概率正确的类别可以被包含。

 

       我们的实验基于新浪问答中用爬虫得到的10个领域(汽车、电脑/互联网、教育、演艺娱乐、家庭生活、游戏、健康医学、买房装修、科学技术、运动爱好)的超过100w条数据。感谢新浪问答对爬虫的容忍……

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值