Rocchio算法用于文本分类

谈谈自己的理解……
假设现有正样本集P和负样本集U用来训练一个二分类Rocchio分类器
主要思想如下:

1.对于P和U分别计算质心
这里写图片描述(*)

2.对于以后待分类的每一个文档d,计算d与 c+或者c-的相似度(如余弦相似度),并划分为相似度大的那一类。

(*)中各个字母的意义:正负样本的个数
|P|和|U|代表
c+、c-:训练集P和N的质心,即能够代表这一类的一个向量
α、β:可用于调节正负样本对于结果的影响
d的含义:代表每一个文档,是一个向量:d=(q1,q2,….,qn),qi表示每一个词的TF*IDF,它越大表示词越重要
TF*IDF解释可见这篇文章:
http://blog.csdn.net/xiangshoujiyi/article/details/51316072

refrence:http://blog.csdn.net/dengxiayigetaishan/article/details/52770024

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值