Rocchio算法( pronounced "Rockey-O")二分类

文本的相关性来自于文本中每个关键词和领域的相关性。

假定中文语言词汇集为X={x1,x2,………xn},xi为词汇代号。

对于类A通过训练得到一个权重集合W={w1,w2,……..wn}

权重集合的特征提取,通过TF/IDF算法,每个词汇的权重即该词汇的信息熵。

对于一个待分类的文本通过分词,数据清洗和特征提取等得到一个向量Y={y1,y2,………..yn},yi表示第i个词出现的次数。

定义文档价值为w(y)=YW,⊙为向量点乘。表示文本对于领域的一个价值度。

由于文本包含词汇越多,那么价值度越高。

定义‖Y1=|y1|+|y2|+…|yn|Y向量的1范式表示文本的词汇总数。

定义‖Y2=sqrt(|y1^2|+|y2^2|+…|yn^2|)Y向量的2范式表示向量长度。

定义‖W2=sqrt(|w1^2|+|w2^2|+…|wn^2|)Y向量的2范式表示向量长度。

定义文档平均价值aw1 (y) = w(y)/ Y1,表示文档每个词汇对领域的价值贡献均值。

定义文档与分类中心向量夹角余玄aww2 (y) = w(y)/ (W2 *Y2 ),表示文档与分类向量中心向量的夹角余玄。

可以采用多种指标确定分类阈值。aw1,aw2,w(y).

达到的阈值的为强相关结果集,未达阈值的为弱相关结果集,在强相关结果集中取出一部分时间最新的文本,作为下一次算法的分类权重集,反复迭代,保证训练集的实时性。

夹角余炫的方法,由于没有考虑的向量的长度,所以在向量空间中是一个锥面,如果特征项l,只取3的话.这样对于短文本,和长文本可能不公平,短文本只要出几个特征可能就被认为是角度足够小的,长文本必须提取出足够多的特征才行,如果只是某一段落与领域相似,是不行的.

如图,分类面如下。

X,Y,Z为假定的三个特征

特征向量,是该领域提取的三个特征的一个分布情况.比如该领域为娱乐,提取的三个特征为,歌手,导演,电影.那么该特征可能的求取方式为tf.idf方法量化出的一值.

夹角的某个空间为相关性强的空间R1,夹角以外的空间,主要X,Y,Z不可能取负值,所以R2,为第一象限中除掉R1的空间.

Line1,Line2应该是弧线,这里为了方便画,所以画成直线,如果考虑向量的长度和夹角,在Line1,Line2,以及角度在制定范围内的空间为领域相关空间,除此之外的为领域无关的.

 

 

参考论文

 Rocchio: Relevance Feedback in earningClassificationAlgorithms

Training Algorithms for Linear Text Classifiers

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值