Rocchio算法（ pronounced "Rockey-O"）二分类

最新推荐文章于 2020-09-21 10:06:31 发布

pennyliang

最新推荐文章于 2020-09-21 10:06:31 发布

阅读量2.8k

点赞数

文章标签：算法文档 training 娱乐语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pennyliang/article/details/1422747

版权

文本的相关性来自于文本中每个关键词和领域的相关性。

假定中文语言词汇集为X={x1,x2,………xn},xi为词汇代号。

对于类A通过训练得到一个权重集合W={w1,w2,……..wn}。

权重集合的特征提取，通过TF/IDF算法，每个词汇的权重即该词汇的信息熵。

对于一个待分类的文本通过分词，数据清洗和特征提取等得到一个向量Y={y1,y2,………..yn},yi表示第i个词出现的次数。

定义文档价值为w(y)=Y⊙W，⊙为向量点乘。表示文本对于领域的一个价值度。

由于文本包含词汇越多，那么价值度越高。

定义‖Y‖1=|y1|+|y2|+…|yn|。Y向量的1范式表示文本的词汇总数。

定义‖Y‖2=sqrt(|y1^2|+|y2^2|+…|yn^2|)。Y向量的2范式表示向量长度。

定义‖W‖2=sqrt(|w1^2|+|w2^2|+…|wn^2|)。Y向量的2范式表示向量长度。

定义文档平均价值aw1 (y) = w(y)/ ‖Y‖1，表示文档每个词汇对领域的价值贡献均值。

定义文档与分类中心向量夹角余玄aww2 (y) = w(y)/ (‖W‖2 *‖Y‖2 )，表示文档与分类向量中心向量的夹角余玄。

可以采用多种指标确定分类阈值。aw1,aw2,w(y).

达到的阈值的为强相关结果集，未达阈值的为弱相关结果集，在强相关结果集中取出一部分时间最新的文本，作为下一次算法的分类权重集，反复迭代，保证训练集的实时性。

夹角余炫的方法,由于没有考虑的向量的长度,所以在向量空间中是一个锥面,如果特征项l,只取3的话.这样对于短文本,和长文本可能不公平,短文本只要出几个特征可能就被认为是角度足够小的,长文本必须提取出足够多的特征才行,如果只是某一段落与领域相似,是不行的.

如图，分类面如下。

X,Y,Z为假定的三个特征

特征向量,是该领域提取的三个特征的一个分布情况.比如该领域为娱乐,提取的三个特征为,歌手,导演,电影.那么该特征可能的求取方式为tf.idf方法量化出的一值.

夹角的某个空间为相关性强的空间R1,夹角以外的空间,主要X,Y,Z不可能取负值,所以R2,为第一象限中除掉R1的空间.

Line1,Line2应该是弧线,这里为了方便画,所以画成直线,如果考虑向量的长度和夹角,在Line1,Line2,以及角度在制定范围内的空间为领域相关空间,除此之外的为领域无关的.

参考论文

Rocchio: Relevance Feedback in earningClassificationAlgorithms

Training Algorithms for Linear Text Classifiers

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Rocchio算法（ pronounced "Rockey-O"）二分类

文本的相关性来自于文本中每个关键词和领域的相关性。假定中文语言词汇集为X={x1,x2,………xn},xi为词汇代号。对于类A通过训练得到一个权重集合W={w1,w2,……..wn}。权重集合的特征提取，通过TF/IDF算法，每个词汇的权重即该词汇的信息熵。对于一个待分类的文本通过分词，数据清洗和特征提取等得到一个向量Y={y1,y2,………..yn},yi表示第i个词出现的次数。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。