机器学习中的特征——特征选择的方法以及注意点(转)

  转自https://blog.csdn.net/google19890102/article/details/40019271 一、特征选择和降维 1、相同点和不同点     特征选择和降维有着些许的相似点,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数...

2018-10-10 22:08:59

阅读数 79

评论数 0

用Spark学习FP Tree算法和PrefixSpan算法

 转自https://www.cnblogs.com/pinard/p/6340162.html     在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于sci...

2018-09-26 22:33:34

阅读数 38

评论数 0

PrefixSpan算法原理总结

转自http://www.cnblogs.com/pinard/p/6323182.html  前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree。这两个算法都是挖掘频繁项集的。而今天我们要介绍的PrefixSpan算法也是关联算法,但是它是挖掘频繁序列模式的,因此要解决的问题目标...

2018-09-26 22:32:09

阅读数 86

评论数 0

决策树ID3、CART、C4.5之间的区别

  历史回顾:1984年提出的cart,1986年提出的ID3,1993年提出的c4.5 理论上总的来说, C4.5是基于ID3优化后产出的算法,主要优化了关于节点分支的计算方式,优化后解决了ID3分支过程中总喜欢偏向取值较多的属性 ID3是信息增益分支: 而CART一般是GINI系数分...

2018-09-16 18:36:30

阅读数 157

评论数 0

机器学习正负样本选择问题

一、 转自https://blog.csdn.net/weixin_38111819/article/details/79214815 在机器学习模型构建的时候,我们往往会遇到数据样本正负比例极其不平衡的情况,例如在征信模型或者判断客户购买商品是否使用分期时,往往正负样本比达到10:1,这样会...

2018-09-02 22:43:12

阅读数 519

评论数 0

深入浅出--梯度下降法及其实现

转自https://www.jianshu.com/p/c7e642877b0e梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度下降算法的原理,最后实现一个简...

2018-06-10 22:27:52

阅读数 213

评论数 0

特征选择

特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。 根据特征选择过程与后续数据挖掘算法的关联,特征选择方法可分为过滤、封装和嵌入。 (1)过滤方法(Filter Approach):使用某种独立于数...

2018-03-08 22:13:06

阅读数 354

评论数 0

逐步回归法(Stepwise regression)学习

转载自http://www.lizenghai.com/archives/524.html搜索逐步回归法相关的资料信息,找到一片逐步回归法的学习笔记,比较详细的讲了逐步回归法的三种操作方式,个人倾向于第三种方式。在第三种方式下,不但考虑了新增因子的解释能力同时也考虑了新增因子后已存在因子的解释能力...

2018-02-25 17:03:11

阅读数 11911

评论数 0

多重共性和VIF检验

图片来源https://wenku.baidu.com/view/7008df8383d049649b66581a.html 和https://wenku.baidu.com/view/6acdf95e52ea551811a68721.html

2018-02-25 16:59:02

阅读数 6296

评论数 0

R语言中的SUMMARY结果汇总

转自http://www.dataguru.cn/thread-476888-1-1.html对于glm模型summary()输出的汇总结果,如何解读是非常重要的,它直接影响得出的结论。例如下面这样一个输出结果,该如何理解呢?Call:glm(formula = bl ~ I, family = ...

2018-02-25 16:26:46

阅读数 9152

评论数 0

机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

转自http://zhwhong.ml/2017/04/14/ROC-AUC-Precision-Recall-analysis/在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习...

2018-02-25 16:15:07

阅读数 826

评论数 0

ROC曲线和PR(Precision-Recall)曲线的联系

在机器学习中,ROC(Receiver Operator Characteristic)曲线被广泛应用于二分类问题中来评估分类器的可信度,但是当处理一些高度不均衡的数据集时,PR曲线能表现出更多的信息,发现更多的问题。1.ROC曲线和PR曲线是如何画出来的?在二分类问题中,分类器将一个实例的分类标...

2018-02-25 16:05:23

阅读数 167

评论数 0

tensorflow笔记:多层CNN代码分析

转自https://www.cnblogs.com/wuzhitj/p/6297985.htmltensorflow是google在2015年开源的深度学习框架,可以很方便的检验算法效果。这两天看了看官方的tutorial,极客学院的文档,以及综合tensorflow的源码,把自己的心得整理了一下...

2018-02-22 22:22:50

阅读数 105

评论数 0

使用Python+Tensorflow的CNN技术快速识别验证码

转自https://www.jianshu.com/p/26ff7b9075a1?from=timeline 近年来,机器学习变得愈加火热,中国选手柯洁与AlphaGo的人机大战更是引起热议。目前,在图像识别和视觉分析研究中,卷积神经网络(CNN)技术的使用越来越多。Tensorflow 是由 G...

2018-02-22 22:21:00

阅读数 143

评论数 0

TensorFlow学习笔记2:构建CNN模型

上篇博文主要是TensorFlow的一个简单入门,并介绍了如何实现Softmax Regression模型,来对MNIST数据集中的数字手写体进行识别。然而,由于Softmax Regression模型相对简单,所以最终的识别准确率并不高。下面将针对MNIST数据集构建更加复杂精巧的模型,以进一步...

2018-02-22 22:17:15

阅读数 78

评论数 0

Tensor是神马?为什么还会Flow?

大数据文摘作品,转载要求见文末编译 | 邵胖胖,江凡,笪洁琼,Aileen也许你已经下载了TensorFlow,而且准备开始着手研究深度学习。但是你会疑惑:TensorFlow里面的Tensor,也就是“张量”,到底是个什么鬼?也许你查阅了维基百科,而且现在变得更加困惑。也许你在NASA教程中看到...

2018-02-22 22:16:13

阅读数 183

评论数 0

从理论到实践,手把手教你如何用 TensorFlow 实现 CNN

转载自https://www.leiphone.com/news/201705/HH3BbIfCqAtOAMbu.html一、CNN的引入在人工的全连接神经网络中,每相邻两层之间的每个神经元之间都是有边相连的。当输入层的特征维度变得很高时,这时全连接网络需要训练的参数就会增大很多,计算速度就会变得...

2018-02-22 20:54:06

阅读数 91

评论数 0

理解CNN卷积神经网络原理

转自http://blog.csdn.net/nicajonh/article/details/53142449?locationNum=2&fps=11 前言    2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱...

2018-02-22 20:27:36

阅读数 54

评论数 0

神经网络浅讲:从神经元到深度学习

            转自http://www.cnblogs.com/subconscious/p/5058741.html神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术...

2018-02-22 20:23:39

阅读数 85

评论数 0

信用评分的简单小结(ROC,IV,WOE)

转自http://chen.yi.bo.blog.163.com/blog/static/150621109201011115616880由于专业的关系,我学习信用评分的时候往往最关注模型那一块,前段时间一直有很多困惑,这周认真地看了一篇文章,终于有一点点明白了,所以来简单地小结一下(这事儿不能说...

2018-02-17 21:57:00

阅读数 103

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭