Information Retrieval --- Classification

一、特征选择:类内代表性、类间区别性、特征子集的最优性

1.DF频率法:选择高频词项

2.互信息MI

image

image

3.χ2 统计量

image

 

二、分类算法

1.线性方法

1.1朴素贝叶斯(假设条件独立)

image

image

image

image

1.2 Rocchio算法:质心法,效果一般不如NBC

基本思想:中心向量是所有文档向量的算术平均,将每篇测试文档分到离它最近的那个中心向量。

image

1.3 SVM支撑向量机:软间隔线性分类器

image

2.非线性方法:KNN最近邻

image

 

三、分类评价

1.P值:该类中正确的结果所占该类总结果的比重

P=CT/(CT+CN)

2.R值:该类中正确的结果占所有类正确结果的比重

R=CT(CT+~CT)

3.F值:调和平均值

F=1/(0.5*(1/P+1/R))

4.Accurary值:

Accuracy = (RR+NN)/(RN + RR + NR + NN)

image

转载于:https://www.cnblogs.com/jizhiyuan/p/3477583.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值