Data Minig --- Classification(supervised learning)

一、决策树:tree construction & tree pruning

a.ID3算法

Gain(A)=Entropy(S) - Σ(Sv/S)*Entropy(Sv)

b.C4.5算法

GainRatio(A)=Gain(A)/SplitInfo(A)

SplitInfo(A)=-Σ(Sv/S)log(Sv/S)

c.Gini Index算法

定义Gini系数如下:

image

若将数据分成两个子集,则分割后的Gini系数为:

image

提供最小的Ginisplit就被选为分割的标准。

 

二、朴素贝叶斯分类

p(c|x1…xn)=p(c)*p(x1|c)…*p(xn|c)/Σp(c)*p(x1|c)…*p(xn|c)

 

三、BP神经网络

BP神经网络模型如下,其目的是根据实际的输入(输入正传)与输出数据更新模型的权系数(误差反传),BP神经网络结构如下:

image

对噪声容错强,很适合连续值的输入输出,缺点是训练时间长且确定隐层神经元个数需要经验知识。

 

四、k近邻

欧式距离:L=norm(x-x')

距离测试点最近的K个点所属的类即测试点的类别。

 

五、集成学习:Bagging\Boosting

a.Bagging算法(bootstrap)

for t=1…T

    s'为从给定训练集s中的随机抽样(有放回)

    在s'上训练弱学习器,得到第t轮的预测函数ht

end

对未知样本x分类时,每个弱分类器ht得到一个结果,得票最高的就是x的类别。

b.Boosting算法

初始分布:D1(i)=1/N

for t=1…T

    计算弱分类器在分布Dt上的误差:et=P(ht(xi)!=yi)

    更新弱分类器的权重:αt=(1/2)*ln((1-et)/et)

    更新训练样本分布:Dt+1(i) = Dt(i)exp(-αt*yi*h(xi))/Zt = Dt/2et 或 Dt/2(1-et)

end

强分类器:H(x)=sign(Σαt*ht)

 

六、分类准确度

confusion matrix

image

accuracy=(t-pos+t-neg)/(pos+neg)

转载于:https://www.cnblogs.com/jizhiyuan/p/3466269.html

火星文是一种虚构的外星语言,华为od面试题考察的是应聘者对于新问题的灵活应对能力和创新思维。对于这道题目,我将用火星文以及一些中文描述来回答。 火星文版本: Zuhro kinok minig pali hujun dedjev? Ponit rawi muwi gedhamupew kodhu domik. 中文描述: 这个问题是关于解决一个难题的,我认为解决难题的关键在于思维的开放和多角度的思考。首先,我们可以考虑不同的解决方法和工具,来寻找最合适的解决方案。其次,我们可以利用团队合作,集思广益,汇集各种创意和观点,从而找到最合理的解决方案。此外,我们可以学习和借鉴过去的经验和教训,不断更新和改进我们的工作方法。最后,我们要勇于面对困难和挫折,积极探索和尝试新的方法,永不放弃,直到找到解决问题的办法。 火星文版本: Dhu pir gajethu rek? Paju krien jat djek. Vatani kothru pranin jok. 中文描述: 你是否会学习新技能?学习是人生的一部分,不断提升自己的能力和知识对于职业发展和个人成长非常重要。通过学习新技能,我们可以开拓思维,拓宽视野,增加自己的竞争力。学习新技能还可以提高解决问题的能力,培养创造力和创新思维。无论是学习编程、外语、管理技能还是其他领域的知识,都能够让我们在职业生涯中更加具备竞争力和适应能力。因此,我对学习新技能持积极态度,愿意不断学习和成长。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值