机器学习
songhao22
这个作者很懒,什么都没留下…
展开
-
机器学习性能评估指标---准确率(Accuracy), 精确率(Precision), 召回率(Recall)
分类混淆矩阵1True Positive(真正, TP):将正类预测为正类数.True Negative(真负 , TN):将负类预测为负类数.False Positive(假正, FP):将负类预测为正类数 →→ 误报 (Type I error).False Negative(假负 , FN):将正类预测为负类数 →→ 漏报 (Type II error).转载 2017-07-16 16:14:04 · 30743 阅读 · 0 评论 -
信息熵与Gini不纯度(转)
1、信息熵信息论中的信息量和信息熵。信息量:信息量是对信息的度量,就跟温度的度量是摄氏度一样,信息的大小跟随机事件的概率有关。例如: 在哈尔滨的冬天,一条消息说:哈尔滨明天温度30摄氏度,这个事件肯定会引起轰动,因为它发生的概率很小(信息量大)。日过是夏天,“明天温度30摄氏度”可能没有人觉得是一个新闻,因为夏天温度30摄氏度太正常了,概率太大了(信息点太小了)从这个例子...转载 2019-03-03 16:29:05 · 673 阅读 · 0 评论 -
机器学习中的特征——特征选择的方法以及注意点(转)
转自https://blog.csdn.net/google19890102/article/details/40019271一、特征选择和降维1、相同点和不同点 特征选择和降维有着些许的相似点,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:降维的方法主要是通过属性间的关系,如组合不同的属性得新的属性,这样...转载 2018-10-10 22:08:59 · 870 阅读 · 0 评论 -
用Spark学习FP Tree算法和PrefixSpan算法
转自https://www.cnblogs.com/pinard/p/6340162.html 在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库,而Spark MLlib有,本文的使用以Spark MLlib...转载 2018-09-26 22:33:34 · 505 阅读 · 0 评论 -
PrefixSpan算法原理总结
转自http://www.cnblogs.com/pinard/p/6323182.html 前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree。这两个算法都是挖掘频繁项集的。而今天我们要介绍的PrefixSpan算法也是关联算法,但是它是挖掘频繁序列模式的,因此要解决的问题目标稍有不同。1. 项集数据和序列数据 首先我们看看项集数据和序列数据有什么不同,如下图所示...转载 2018-09-26 22:32:09 · 494 阅读 · 0 评论 -
决策树ID3、CART、C4.5之间的区别
历史回顾:1984年提出的cart,1986年提出的ID3,1993年提出的c4.5理论上总的来说,C4.5是基于ID3优化后产出的算法,主要优化了关于节点分支的计算方式,优化后解决了ID3分支过程中总喜欢偏向取值较多的属性ID3是信息增益分支:而CART一般是GINI系数分支:C4.5一般是信息增益率分支: 工程上总的来说:CART和C4.5之间主要差...转载 2018-09-16 18:36:30 · 15147 阅读 · 1 评论 -
机器学习正负样本选择问题
一、转自https://blog.csdn.net/weixin_38111819/article/details/79214815在机器学习模型构建的时候,我们往往会遇到数据样本正负比例极其不平衡的情况,例如在征信模型或者判断客户购买商品是否使用分期时,往往正负样本比达到10:1,这样会造成许多实际问题。样本不均衡会导致:对比例大的样本造成过拟合,也就是说预测偏向样本数较多的分类。这...转载 2018-09-02 22:43:12 · 11557 阅读 · 2 评论 -
深入浅出--梯度下降法及其实现
转自https://www.jianshu.com/p/c7e642877b0e梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度下降算法的原理,最后实现一个简单的梯度下降算法的实例!梯度下降的场景假设梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场...转载 2018-06-10 22:27:52 · 1007 阅读 · 2 评论 -
逐步回归法(Stepwise regression)学习
转载自http://www.lizenghai.com/archives/524.html搜索逐步回归法相关的资料信息,找到一片逐步回归法的学习笔记,比较详细的讲了逐步回归法的三种操作方式,个人倾向于第三种方式。在第三种方式下,不但考虑了新增因子的解释能力同时也考虑了新增因子后已存在因子的解释能力,最终等于将所有因子中不适宜的因子剔除,留下有效因子。这是解决多因子的多重共线性的有效办法。原文内容(...转载 2018-02-25 17:03:11 · 106280 阅读 · 2 评论 -
多重共性和VIF检验
图片来源https://wenku.baidu.com/view/7008df8383d049649b66581a.html 和https://wenku.baidu.com/view/6acdf95e52ea551811a68721.html原创 2018-02-25 16:59:02 · 51278 阅读 · 0 评论 -
机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率
转自http://zhwhong.ml/2017/04/14/ROC-AUC-Precision-Recall-analysis/在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更好地了解分...转载 2018-02-25 16:15:07 · 1734 阅读 · 0 评论 -
ROC曲线和PR(Precision-Recall)曲线的联系
在机器学习中,ROC(Receiver Operator Characteristic)曲线被广泛应用于二分类问题中来评估分类器的可信度,但是当处理一些高度不均衡的数据集时,PR曲线能表现出更多的信息,发现更多的问题。1.ROC曲线和PR曲线是如何画出来的?在二分类问题中,分类器将一个实例的分类标记为是或否,这可以用一个混淆矩阵来表示。混淆矩阵有四个分类,如下表:actual positive a...转载 2018-02-25 16:05:23 · 658 阅读 · 0 评论 -
特征选择
特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。 根据特征选择过程与后续数据挖掘算法的关联,特征选择方法可分为过滤、封装和嵌入。 (1)过滤方法(Filter Approach):使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行之前进行特征选择,即先过滤特征集产生一个最有价值的特征子集。或者说...转载 2018-03-08 22:13:06 · 853 阅读 · 0 评论 -
WOE和IV
转载自http://blog.csdn.net/kevin7658/article/details/507803911.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从...转载 2018-02-08 22:03:43 · 362 阅读 · 0 评论 -
SMOTE过采样
转载自https://blog.csdn.net/keycoder/article/details/79188853一、SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特...转载 2019-07-30 08:07:59 · 2543 阅读 · 0 评论