数据挖掘第三周

最新推荐文章于 2024-08-12 21:18:42 发布

qq_41166416

最新推荐文章于 2024-08-12 21:18:42 发布

阅读量103

点赞数

文章标签：数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41166416/article/details/120868929

版权

本文探讨了贝叶斯公式的基本原理，介绍了朴素贝叶斯的假设及其在条件独立问题中的应用。通过拉普拉斯平滑处理零概率事件，并结合决策树的构建方法，揭示了如何避免过学习。重点讲解了ID3算法的选择属性策略和信息增益的概念，以及如何通过剪枝防止过拟合。

摘要由CSDN通过智能技术生成

贝叶斯

分类是有监督的学习，需要有人打上标签，有输入有输出

贝叶斯公式：

贝叶斯公式描述的是后验概率 $P(A|B)$ 如何由先验概率 $P(A)$ 和 $P(B)$ 以及实验数据 $P(B|A)$ 得出的

朴素贝叶斯

由于 $P(\alpha _{1},\alpha _{2},\alpha _{3}...\alpha _{n}|\omega_{i} )$ 不好求所以假设条件α1，α2...αn之间条件独立就可得到朴素贝叶斯公式

AB条件独立

例如男性B抽烟G得肺癌A的概率=抽烟G得肺癌A的概率，是男性B和得肺癌A是条件独立的

条件独立≠独立如下图

拉普拉斯平滑

因为朴素贝叶斯公式分子都是相乘的若有一项为零则结果为零，但样本的概率为零不代表实际不会出现比如长头发男性，所以每一项都加上1保证概率都不为零

决策树

每一个节点都是一个属性，根据节点进行判断，一层一层去做决策的模型

优点：具有一个清晰的结构，能够模仿人类思维的流程

决策树不唯一，简单的就是好的。奥卡姆剃刀：如无必要勿增实体

决策树算法ID3（Iterative Dichotomizer 3）

重点：根据度量，选择属性。把比较强大区分度大的的属性放在上面，把精确的放在下面

熵（entropy）S：衡量系统的不确定性或者变量取值的不确定性，最大值是1表示最不确定。

引入A的信息增益：当加入一个属性A后用原熵减去个属性子集所占比（如男性占几成）乘以引入新属性后算得新熵的乘积和

如何建树：先从所有属性中跳出一个可以分的最好的属性（如收入），如果按照该属性分完后的各子集（如高、中、低）有子集是纯的（如都买了或都没买）该子集就不用再分了，如果不纯则需要再选个属性继续分（如居住区域）如果所有属性都用完了还是不纯则少数服从多数

过学习：A再训练集的表现比B好，B在测试集的表现比A好，则称A过学习了。

决策树预防过学习

1、限制树的长度

2、对树进行剪枝：合并然后少数服从多数，剪枝时观察Validation Set误差值会先减小后增大在拐点附近停止

有些属性虽然会分的很细但是没有意义如生日所以引入惩罚量，第一个式子属性把样本分的越细值越大，用原来的informationGain去除以它所得值越大越好

连续型数据进行离散化

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘第三周

贝叶斯分类是有监督的学习，需要有人打上标签，有输入有输出贝叶斯公式：贝叶斯公式描述的是后验概率如何由先验概率和以及实验数据得出的朴素贝叶斯由于不好求所以假设条件α1，α2...αn之间条件独立就可得到朴素贝叶斯公式AB条件独立例如男性B抽烟G得肺癌A的概率=抽烟G得肺癌A的概率，是男性B和得肺癌A...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。