spark组件之graphx函数方法(一) 看链接https://blog.csdn.net/sinat_29508201/article/details/51605676?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-21&utm_source=distribute.pc_relevant.none-task-blog-B...
SMOTE过采样 转载自https://blog.csdn.net/keycoder/article/details/79188853一、SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特...
信息熵与Gini不纯度(转) 1、信息熵信息论中的信息量和信息熵。信息量:信息量是对信息的度量,就跟温度的度量是摄氏度一样,信息的大小跟随机事件的概率有关。例如: 在哈尔滨的冬天,一条消息说:哈尔滨明天温度30摄氏度,这个事件肯定会引起轰动,因为它发生的概率很小(信息量大)。日过是夏天,“明天温度30摄氏度”可能没有人觉得是一个新闻,因为夏天温度30摄氏度太正常了,概率太大了(信息点太小了)从这个例子...
机器学习中的特征——特征选择的方法以及注意点(转) 转自https://blog.csdn.net/google19890102/article/details/40019271一、特征选择和降维1、相同点和不同点 特征选择和降维有着些许的相似点,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:降维的方法主要是通过属性间的关系,如组合不同的属性得新的属性,这样...
用Spark学习FP Tree算法和PrefixSpan算法 转自https://www.cnblogs.com/pinard/p/6340162.html 在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库,而Spark MLlib有,本文的使用以Spark MLlib...
PrefixSpan算法原理总结 转自http://www.cnblogs.com/pinard/p/6323182.html 前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree。这两个算法都是挖掘频繁项集的。而今天我们要介绍的PrefixSpan算法也是关联算法,但是它是挖掘频繁序列模式的,因此要解决的问题目标稍有不同。1. 项集数据和序列数据 首先我们看看项集数据和序列数据有什么不同,如下图所示...
决策树ID3、CART、C4.5之间的区别 历史回顾:1984年提出的cart,1986年提出的ID3,1993年提出的c4.5理论上总的来说,C4.5是基于ID3优化后产出的算法,主要优化了关于节点分支的计算方式,优化后解决了ID3分支过程中总喜欢偏向取值较多的属性ID3是信息增益分支:而CART一般是GINI系数分支:C4.5一般是信息增益率分支: 工程上总的来说:CART和C4.5之间主要差...
机器学习正负样本选择问题 一、转自https://blog.csdn.net/weixin_38111819/article/details/79214815在机器学习模型构建的时候,我们往往会遇到数据样本正负比例极其不平衡的情况,例如在征信模型或者判断客户购买商品是否使用分期时,往往正负样本比达到10:1,这样会造成许多实际问题。样本不均衡会导致:对比例大的样本造成过拟合,也就是说预测偏向样本数较多的分类。这...
深入浅出--梯度下降法及其实现 转自https://www.jianshu.com/p/c7e642877b0e梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度下降算法的原理,最后实现一个简单的梯度下降算法的实例!梯度下降的场景假设梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场...
特征选择 特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。 根据特征选择过程与后续数据挖掘算法的关联,特征选择方法可分为过滤、封装和嵌入。 (1)过滤方法(Filter Approach):使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行之前进行特征选择,即先过滤特征集产生一个最有价值的特征子集。或者说...
逐步回归法(Stepwise regression)学习 转载自http://www.lizenghai.com/archives/524.html搜索逐步回归法相关的资料信息,找到一片逐步回归法的学习笔记,比较详细的讲了逐步回归法的三种操作方式,个人倾向于第三种方式。在第三种方式下,不但考虑了新增因子的解释能力同时也考虑了新增因子后已存在因子的解释能力,最终等于将所有因子中不适宜的因子剔除,留下有效因子。这是解决多因子的多重共线性的有效办法。原文内容(...
多重共性和VIF检验 图片来源https://wenku.baidu.com/view/7008df8383d049649b66581a.html 和https://wenku.baidu.com/view/6acdf95e52ea551811a68721.html
R语言中的SUMMARY结果汇总 转自http://www.dataguru.cn/thread-476888-1-1.html对于glm模型summary()输出的汇总结果,如何解读是非常重要的,它直接影响得出的结论。例如下面这样一个输出结果,该如何理解呢?Call:glm(formula = bl ~ I, family = gaussian,data = anaData)Deviance Residuals: Min ...
机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率 转自http://zhwhong.ml/2017/04/14/ROC-AUC-Precision-Recall-analysis/在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更好地了解分...
ROC曲线和PR(Precision-Recall)曲线的联系 在机器学习中,ROC(Receiver Operator Characteristic)曲线被广泛应用于二分类问题中来评估分类器的可信度,但是当处理一些高度不均衡的数据集时,PR曲线能表现出更多的信息,发现更多的问题。1.ROC曲线和PR曲线是如何画出来的?在二分类问题中,分类器将一个实例的分类标记为是或否,这可以用一个混淆矩阵来表示。混淆矩阵有四个分类,如下表:actual positive a...
tensorflow笔记:多层CNN代码分析 转自https://www.cnblogs.com/wuzhitj/p/6297985.htmltensorflow是google在2015年开源的深度学习框架,可以很方便的检验算法效果。这两天看了看官方的tutorial,极客学院的文档,以及综合tensorflow的源码,把自己的心得整理了一下,作为自己的备忘录。tensorflow笔记系列: (一) tensorflow笔记:流程,概念和简单...
使用Python+Tensorflow的CNN技术快速识别验证码 转自https://www.jianshu.com/p/26ff7b9075a1?from=timeline 近年来,机器学习变得愈加火热,中国选手柯洁与AlphaGo的人机大战更是引起热议。目前,在图像识别和视觉分析研究中,卷积神经网络(CNN)技术的使用越来越多。Tensorflow 是由 Google 团队开发的神经网络模块,短短几年间, 就已经有很多次版本的更新。最近我也在自学Tensor...
TensorFlow学习笔记2:构建CNN模型 上篇博文主要是TensorFlow的一个简单入门,并介绍了如何实现Softmax Regression模型,来对MNIST数据集中的数字手写体进行识别。然而,由于Softmax Regression模型相对简单,所以最终的识别准确率并不高。下面将针对MNIST数据集构建更加复杂精巧的模型,以进一步提高识别准确率。深度学习模型TensorFlow很适合用来进行大规模的数值计算,其中也包括实现和训练深...
Tensor是神马?为什么还会Flow? 大数据文摘作品,转载要求见文末编译 | 邵胖胖,江凡,笪洁琼,Aileen也许你已经下载了TensorFlow,而且准备开始着手研究深度学习。但是你会疑惑:TensorFlow里面的Tensor,也就是“张量”,到底是个什么鬼?也许你查阅了维基百科,而且现在变得更加困惑。也许你在NASA教程中看到它,仍然不知道它在说些什么?问题在于大多数讲述张量的指南,都假设你已经掌握他们描述数学的所有术语。别担...