Data Minig --- Classification(supervised learning)

最新推荐文章于 2024-10-16 09:19:27 发布

weixin_30735745

最新推荐文章于 2024-10-16 09:19:27 发布

阅读量85

点赞数

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/jizhiyuan/p/3466269.html

版权

一、决策树：tree construction & tree pruning

a.ID3算法

Gain(A)=Entropy(S) - Σ(Sv/S)*Entropy(Sv)

b.C4.5算法

GainRatio(A)=Gain(A)/SplitInfo(A)

SplitInfo(A)=-Σ(Sv/S)log(Sv/S)

c.Gini Index算法

定义Gini系数如下：

若将数据分成两个子集，则分割后的Gini系数为：

提供最小的Gini_split就被选为分割的标准。

二、朴素贝叶斯分类

p(c|x1…xn)=p(c)*p(x1|c)…*p(xn|c)/Σp(c)*p(x1|c)…*p(xn|c)

三、BP神经网络

BP神经网络模型如下，其目的是根据实际的输入（输入正传）与输出数据更新模型的权系数（误差反传），BP神经网络结构如下：

对噪声容错强，很适合连续值的输入输出，缺点是训练时间长且确定隐层神经元个数需要经验知识。

四、k近邻

欧式距离：L=norm(x-x')

距离测试点最近的K个点所属的类即测试点的类别。

五、集成学习：Bagging\Boosting

a.Bagging算法（bootstrap）

for t=1…T

s'为从给定训练集s中的随机抽样（有放回）

在s'上训练弱学习器，得到第t轮的预测函数ht

end

对未知样本x分类时，每个弱分类器ht得到一个结果，得票最高的就是x的类别。

b.Boosting算法

初始分布：D1(i)=1/N

for t=1…T

计算弱分类器在分布Dt上的误差：et=P(ht(xi)!=yi)

更新弱分类器的权重：αt=(1/2)*ln((1-et)/et)

更新训练样本分布：Dt+1(i) = Dt(i)exp(-αt*yi*h(xi))/Zt = Dt/2et 或 Dt/2(1-et)

end

强分类器：H(x)=sign(Σαt*ht)

六、分类准确度

confusion matrix

accuracy=(t-pos+t-neg)/(pos+neg)

转载于:https://www.cnblogs.com/jizhiyuan/p/3466269.html

weixin_30735745

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。