机器学习中信息增益的计算方法

背景介绍:最近在处理数据的时候,需要用到信息增益来进行特征选择,在网上查阅了一些资料,这里对信息增益的相关知识总结一下。

  • 信息增益原理介绍

介绍信息增益之前,首先需要介绍一下熵的概念,这是一个物理学概念,表示“一个系统的混乱程度”。系统的不确定性越高,熵就越大。假设集合中的变量X={x1,x2…xn},它对应在集合的概率分别是P={p1,p2…pn}。那么这个集合的熵表示为:

举一个的例子:对游戏活跃用户进行分层,分为高活跃、中活跃、低活跃,游戏A按照这个方式划分,用户比例分别为20%,30%,50%。游戏B按照这种方式划分,用户比例分别为5%,5%,90%。那么游戏A对于这种划分方式的熵为:

同理游戏B对于这种划分方式的熵为:

游戏A的熵比游戏B的熵大,所以游戏A的不确定性比游戏B高。用简单通俗的话来讲,游戏B要不就在上升期,要不就在衰退期,它的未来已经很确定了,所以熵低。而游戏A的未来有更多的不确定性,它的熵更高。

介绍完熵的概念,我们继续看信息增益。为了便于理解,我们还是以一个实际的例子来说明信息增益的概念。假设有下表样本

!

第一列为QQ,第二列为性别,第三列为活跃度,最后一列用户是否流失。我们要解决一个问题:性别和活跃度两个特征,哪个对用户流失影响更大?我们通过计算信息熵可以解决这个问题。

按照分组统计,我们可以得到如下信息:

其中Positive为正样本(已流失),Negative为负样本(未流失),下面的数值为不同划分下对应的人数。那么可得到三个熵:

整体熵:

性别熵:

性别信息增益:

同理计算活跃度熵:

活跃度信息增益:

活跃度的信息增益比性别的信息增益大,也就是说,活跃度对用户流失的影响比性别大。在做特征选择或者数据分析的时候,我们应该重点考察活跃度这个指标。


  • 57
    点赞
  • 169
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
第⼆二章 机器器学习基础 2.1 各种常⻅见算法图示 2.2 监督学习、⾮非监督学习、半监督学习、弱监督学习? 2.3 监督学习有哪些步骤 2.4 多实例例学习? 2.5 分类⽹网络和回归的区别? 2.6 什什么是神经⽹网络? 2.7 理理解局部最优与全局最优 2.8 分类算法 2.8.1 常⽤用分类算法的优缺点? 2.8.2 正确率能很好的评估分类算法吗? 2.8.3 分类算法的评估⽅方法? 2.8.4 什什么样的分类器器是最好的? 2.9 逻辑回归 2.9.1 理理解逻辑回归 2.9.2 逻辑回归与朴素⻉贝叶斯有什什么区别? 2.9.3线性回归与逻辑回归的区别?(贡献者:⻩黄钦建-华南理理⼯工⼤大学) 2.10 代价函数 2.10.1 为什什么需要代价函数? 2.10.2 代价函数作⽤用原理理 2.10.3 为什什么代价函数要⾮非负? 2.10.4 常⻅见代价函数? 2.10.5 为什什么⽤用交叉熵代替⼆二次代价函数 2.11 损失函数 2.11.1 什什么是损失函数? 2.11.2 常⻅见的损失函数 2.11.3 逻辑回归为什什么使⽤用对数损失函数? 2.11.4 对数损失函数是如何度量量损失的? 2.12 梯度下降 2.12.1 机器器学习为什什么需要梯度下降? 2.12.2 梯度下降法缺点? 2.12.3 梯度下降法直观理理解? 2.12.4 梯度下降法算法描述? 2.12.5 如何对梯度下降法进⾏行行调优? 2.12.7 随机梯度和批量量梯度区别? 2.12.8 各种梯度下降法性能⽐比较 2.13 计算图的导数计算图解? 2.14 线性判别分析(LDA) 2.14.1 线性判别分析(LDA)思想总结 2.14.2 图解LDA核⼼心思想 2.14.3 ⼆二类LDA算法原理理? 2.14.4 LDA算法流程总结? 2.14.5 LDA和PCA区别? 2.14.6 LDA优缺点? 2.15 主成分分析(PCA) 2.15.1 主成分分析(PCA)思想总结 2.15.2 图解PCA核⼼心思想 2.15.3 PCA算法推理理 2.15.4 PCA算法流程总结 2.15.5 PCA算法主要优缺点 2.15.6 降维的必要性及⽬目的 2.15.7 KPCA与PCA的区别? 2.16 模型评估 2.16.1 模型评估常⽤用⽅方法? 2.16.2 机器器学习的Bias,Error和Variance有什什么区别和联系? 2.16.3 经验误差与泛化误差 2.16.4 图解⽋欠拟合、过拟合 2.16.5 如何解决过拟合与⽋欠拟合? 2.16.6 交叉验证的主要作⽤用? 2.16.7 k折交叉验证? 2.16.8 混淆矩阵 2.16.9 错误率及精度 2.16.10 查准率与查全率 2.16.11 ROC与AUC 2.16.12 如何画ROC曲线? 2.16.13 如何计算TPR,FPR? 2.16.14 如何计算Auc? 2.16.15 为什什么使⽤用Roc和Auc评价分类器器? 2.16.17 直观理理解AUC 2.16.18 代价敏敏感错误率与代价曲线 2.16.19 模型有哪些⽐比较检验⽅方法 2.16.20 偏差与⽅方差 2.16.21为什什么使⽤用标准差? 2.16.22点估计思想 2.16.23 点估计优良性原则? 2.16.24 点估计、区间估计、⼼心极限定理理之间的联系? 2.16.25 类别不不平衡产⽣生原因? 2.16.26 常⻅见的类别不不平衡问题解决⽅方法 2.17 决策树 2.17.1 决策树的基本原理理 2.17.2 决策树的三要素? 2.17.3 决策树学习基本算法 2.17.4 决策树算法优缺点 2.17.5熵的概念以及理理解 2.17.6 信息增益的理理解 2.17.7 剪枝处理理的作⽤用及策略略? 2.18 ⽀支持向量量机 2.18.1 什什么是⽀支持向量量机 2.18.2 ⽀支持向量量机解决的问题? 2.18.3 核函数作⽤用? 2.18.4 对偶问题 2.18.5 理理解⽀支持向量量回归 2.18.6 理理解SVM(核函数) 2.18.7 常⻅见的核函数有哪些? 2.18.8 软间隔与正则化 2.18.9 SVM主要特点及缺点? 2.19 ⻉贝叶斯 2.19.1 图解极⼤大似然估计 2.19.2 朴素⻉贝叶斯分类器器和⼀一般的⻉贝叶斯分类器器有什什么区别? 2.19.3 朴素与半朴素⻉贝叶斯分类器器 2.19.4 ⻉贝叶斯⽹网三种典型结构 2.19.5 什什么是⻉贝叶斯错误率 2.19.6 什什么是⻉贝叶斯最优错误率 2.20 EM算法解决问题及实现流程 2.21 降维和聚类 2.21.1 为什什么会产⽣生维数灾难? 2.21.2 怎样避免维数灾难 2.21.3 聚类和降维有什什么区别与联系? 2.21.4 四种聚类⽅方法之⽐比较 2.21.5 SOM聚类算法 2.21.6 FCM聚类算法 2.22 GBDT和随机森林林的区别 2.23 ⼤大数据与深度学习之间的关系
统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。 《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。 《统计学习方法》 第1章统计学习方法概论 1.1统计学习 1.2监督学习 1.2.1基本概念 1.2.2问题的形式化 1.3统计学习三要素 1.3.1模型 1.3.2策略 1.3.3算法 1.4模型评估与模型选择 1.4.1训练误差与测试误差 1.4.2过拟合与模型选择 1.5i~则化与交叉验证 1.5.1正则化 1.5.2交叉验证 1.6泛化能力 1.6.1泛化误差 1.6.2泛化误差上界 1.7生成模型与判别模型 .1.8分类问题 1.9标注问题 1.10回归问题 本章概要 继续阅读 习题 参考文献 第2章感知机 2.1感知机模型 2.2感知机学习策略 2.2.1数据集的线性可分性 2.2.2感知机学习策略 2.3感知机学习算法 2.3.1感知机学习算法的原始形式 2.3.2算法的收敛性 2.3.3感知机学习算法的对偶形式 本章概要 继续阅读 习题 参考文献 第3章众近邻法 3.1 k近邻算法 3.2 k近邻模型 3.2.1模型 3.2.2距离度量 ·3.2.3 k值的选择 3.2.4分类决策规则 3.3k近邻法的实现:kd树 3.3.1构造af树 3.3.2搜索af树 本章概要 继续阅读 习题 参考文献 第4章朴素贝叶斯法 4.1朴素贝叶斯法的学习与分类 4.1.1基本方法 4.1.2后验概率最大化的含义 4.2朴素贝叶斯法的参数估计 4.2.1极大似然估计 4.2.2学习与分类算法 4.2.3贝叶斯估计 本章概要 继续阅读 习题 参考文献 第5章决策树 5.1决策树模型与学习 5.1.1决策树模型 5.1.2决策树与isthen规则 5.1.3决策树与条件概率分布 5.1.4决策树学习 5.2特征选择 5.2.1特征选择问题 5.2.2信息增益 5.2.3信息增益比 5.3决策树的生成 5.3.11d3算法 5.3.2 c4.5的生成算法 5.4决策树的剪枝 5.5cart算法 5.5.1cart生成 5.5.2cart剪枝 本章概要 继续阅读 习题 参考文献 第6章逻辑斯谛回归与最大熵模型 6.1逻辑斯谛回归模型 6.1.1逻辑斯谛分布 6.1.2项逻辑斯谛回归模型 6.1.3模型参数估计 6.1.4多项逻辑斯谛回归 6.2最大熵模型 6.2.1最大熵原理 6.2.2最大熵模型的定义 6.2.3最大熵模型的学习 6.2.4极大似然估计 6.3模型学习的最优化算法 6.3.1改进的迭代尺度法 6.3.2拟牛顿法 本章概要 继续阅读 习题 参考文献 第7章支持向量机 7.1线性可分支持向量机与硬间隔最大化 7.1.1线性可分支持向量机 7.1.2函数间隔和几何间隔 7.1.3间隔最大化 7.1.4学习的对偶算法 7.2线性支持向量机与软间隔最大化 7.2.1线性支持向量机 7.2.2学习的对偶算法 7.2.3支持向量 7.2.4合页损失函数 7.3非线性支持向量机与核函数 7.3.1核技巧 7.3.2定核 7.3.3常用核函数 7.3.4非线性支持向量分类机 7.4序列最小最优化算法 7.4.1两个变量二次规划的求解方法 7.4.2变量的选择方法 7.4.3smo算法 本章概要 继续阅读 习题 参考文献 第8章提升方法 8.1提升方法adaboost算法 8.1.1提升方法的基本思路 8.1.2adaboost算法 8.1.3 adaboost的例子 8.2adaboost算法的训练误差分析 8.3 adaboost算法的解释 8.3.1前向分步算法 8.3.2前向分步算法与ad9boost 8.4提升树 8.4.1提升树模型 8.4.2提升树算法 8.4.3梯度提升 本章概要 继续阅读 习题 参考文献 第9章em算法及其推广 9.1em算法的引入 9.1.1em算法 9.1.2em算法的导出 9.1.3em算法在非监督学习的应用 9.2em算法的收敛性 9.3em算法在高斯混合模型学习的应用 9.3.1高斯混合模型 9.3.2高斯混合模型参数估计的em算法 9.4em算法的推广 9.4.1f函数的极大极大算法 9.4.2gem算法 本章概要 继续阅读 习题 参考文献 第10章隐马尔可夫模型 10.1隐马尔可夫模型的基本概念 10.1.1隐马尔可夫模型的定义 10.1.2观测序列的生成过程 10.1.3隐马尔可夫模型的3个基本问题 10.2概率计算算法 10.2.1直接计算法 10.2.2前向算法 10.2.3后向算法 10.2.4一些概率与期望值的计算 10.3学习算法 10.3.1监督学习方法 10.3.2baum-welch算法 10.3.3baum-welch模型参数估计公式 10.4预测算法 10.4.1近似算法 10.4.2维特比算法 本章概要 继续阅读 习题 参考文献 第11章条件随机场 11.1概率无向图模型 11.1.1模型定义 11.1.2概率无向图模型的因子分解 11.2条件随机场的定义与形式 11.2.1条件随机场的定义 11.2.2条件随机场的参数化形式 11.2.3条件随机场的简化形式 11.2.4条件随机场的矩阵形式 11.3条件随机场的概率计算问题 11.3.1前向后向算法 11.3.2概率计算 11.3.3期望值的计算 11.4条件随机场的学习算法 11.4.1改进的迭代尺度法 11.4.2拟牛顿法 11.5条件随机场的预测算法 本章概要 继续阅读 习题 参考文献 第12章统计学习方法总结 附录a梯度下降法 附录b牛顿法和拟牛顿法 附录c拉格朗日对偶性

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值