数据挖掘第三周

本文探讨了贝叶斯公式的基本原理,介绍了朴素贝叶斯的假设及其在条件独立问题中的应用。通过拉普拉斯平滑处理零概率事件,并结合决策树的构建方法,揭示了如何避免过学习。重点讲解了ID3算法的选择属性策略和信息增益的概念,以及如何通过剪枝防止过拟合。
摘要由CSDN通过智能技术生成

贝叶斯

        分类是有监督的学习,需要有人打上标签,有输入有输出

 贝叶斯公式:

        

         贝叶斯公式描述的是后验概率P(A|B)如何由先验概率P(A)P(B)以及实验数据P(B|A)得出的

朴素贝叶斯

                                 

         由于P(\alpha _{1},\alpha _{2},\alpha _{3}...\alpha _{n}|\omega_{i} )不好求所以假设条件α1,α2...αn之间条件独立就可得到朴素贝叶斯公式

         AB条件独立

         例如男性B抽烟G得肺癌A的概率=抽烟G得肺癌A的概率,是男性B和得肺癌A是条件独立的

        条件独立≠独立 如下图

                

 拉普拉斯平滑

                

         因为朴素贝叶斯公式分子都是相乘的若有一项为零则结果为零,但样本的概率为零不代表实际不会出现比如长头发男性,所以每一项都加上1保证概率都不为零

决策树

                       

        每一个节点都是一个属性,根据节点进行判断,一层一层去做决策的模型

        优点:具有一个清晰的结构,能够模仿人类思维的流程

        决策树不唯一,简单的就是好的。奥卡姆剃刀:如无必要勿增实体

       

        决策树算法ID3(Iterative Dichotomizer 3)

        重点:根据度量,选择属性。把比较强大区分度大的的属性放在上面,把精确的放在下面

        熵(entropy)S:衡量系统的不确定性或者变量取值的不确定性,最大值是1表示最不确定。 

            引入A的信息增益: 当加入一个属性A后 用原熵减去个属性子集所占比(如男性占几成)乘以引入新属性后算得新熵的乘积和

         

        如何建树:先从所有属性中跳出一个可以分的最好的属性(如收入),如果按照该属性分完后的各子集(如高、中、低)有子集是纯的(如都买了或都没买)该子集就不用再分了,如果不纯则需要再选个属性继续分(如居住区域)如果所有属性都用完了还是不纯则少数服从多数

        过学习:A再训练集的表现比B好,B在测试集的表现比A好,则称A过学习了。      

        决策树预防过学习

                1、限制树的长度

                2、对树进行剪枝:合并然后少数服从多数,剪枝时观察Validation Set误差值会先减小后增大在拐点附近停止

                        

         有些属性虽然会分的很细但是没有意义如生日所以引入惩罚量,第一个式子属性把样本分的越细值越大,用原来的informationGain去除以它所得值越大越好

        连续型数据进行离散化

        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值