贝叶斯
分类是有监督的学习,需要有人打上标签,有输入有输出
贝叶斯公式:
贝叶斯公式描述的是后验概率如何由先验概率
和
以及实验数据
得出的
朴素贝叶斯
由于不好求所以假设条件α1,α2...αn之间条件独立就可得到朴素贝叶斯公式
AB条件独立
例如男性B抽烟G得肺癌A的概率=抽烟G得肺癌A的概率,是男性B和得肺癌A是条件独立的
条件独立≠独立 如下图
拉普拉斯平滑
因为朴素贝叶斯公式分子都是相乘的若有一项为零则结果为零,但样本的概率为零不代表实际不会出现比如长头发男性,所以每一项都加上1保证概率都不为零
决策树
每一个节点都是一个属性,根据节点进行判断,一层一层去做决策的模型
优点:具有一个清晰的结构,能够模仿人类思维的流程
决策树不唯一,简单的就是好的。奥卡姆剃刀:如无必要勿增实体
决策树算法ID3(Iterative Dichotomizer 3)
重点:根据度量,选择属性。把比较强大区分度大的的属性放在上面,把精确的放在下面
熵(entropy)S:衡量系统的不确定性或者变量取值的不确定性,最大值是1表示最不确定。
引入A的信息增益: 当加入一个属性A后 用原熵减去个属性子集所占比(如男性占几成)乘以引入新属性后算得新熵的乘积和
如何建树:先从所有属性中跳出一个可以分的最好的属性(如收入),如果按照该属性分完后的各子集(如高、中、低)有子集是纯的(如都买了或都没买)该子集就不用再分了,如果不纯则需要再选个属性继续分(如居住区域)如果所有属性都用完了还是不纯则少数服从多数
过学习:A再训练集的表现比B好,B在测试集的表现比A好,则称A过学习了。
决策树预防过学习
1、限制树的长度
2、对树进行剪枝:合并然后少数服从多数,剪枝时观察Validation Set误差值会先减小后增大在拐点附近停止
有些属性虽然会分的很细但是没有意义如生日所以引入惩罚量,第一个式子属性把样本分的越细值越大,用原来的informationGain去除以它所得值越大越好
连续型数据进行离散化