Rocchio算法用于文本分类

最新推荐文章于 2023-05-14 14:44:35 发布

code_caq

最新推荐文章于 2023-05-14 14:44:35 发布

阅读量1.3k

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/code_caq/article/details/75212602

版权

NLP 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

谈谈自己的理解……
假设现有正样本集P和负样本集U用来训练一个二分类Rocchio分类器
主要思想如下：

1.对于P和U分别计算质心
这里写图片描述（*）

2.对于以后待分类的每一个文档d，计算d与 c+或者c-的相似度（如余弦相似度），并划分为相似度大的那一类。

（*）中各个字母的意义：正负样本的个数
|P|和|U|代表
c+、c-：训练集P和N的质心，即能够代表这一类的一个向量
α、β：可用于调节正负样本对于结果的影响
d的含义:代表每一个文档，是一个向量：d=(q1,q2,….,qn)，qi表示每一个词的TF*IDF，它越大表示词越重要
TF*IDF解释可见这篇文章：
http://blog.csdn.net/xiangshoujiyi/article/details/51316072

refrence:http://blog.csdn.net/dengxiayigetaishan/article/details/52770024

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Rocchio算法用于文本分类

谈谈自己的理解…… 假设现有正样本集P和负样本集N用来训练一个二分类Rocchio分类器主要思想如下：1.对于P和N分别计算质心（*）2.对于以后待分类的每一个文档d，计算d与 c+或者c-的相似度（如余弦相似度），并划分为相似度大的那一类。（*）中各个字母的意义： c+、c-：训练集P和N的质心，即能够代表这一类的一个向量 α、β：可用于调节正负样本对于结果的影响 d的含义:代表每
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。