2018年03月_码不停题Elon

转载评价分类器性能指标之AUC、ROC

前言曾经面试的时候被问到过这么一个问题，怎么向一个没有任何计算机、数学、统计等基础的人介绍下什么是AUC，当时我败北了。不过后来我有一天顿悟了，为了检验我的顿悟是否有效，特此一答。我给出的答案是 AUC是指随机给定一个正样本和一个负样本，分类器输出该正样本为正的那个概率值比分类器输出该负样本为正的那个概率值要大的可能性。作者：小小丘链接：https://www.zhihu.com/ques...

2018-03-23 15:00:03 3387

转载协方差与相关系数 numpy中cov与corrcoef的使用

协方差与相关系数协方差与相关系数协方差相关系数1.协方差如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。可以通俗的理解为：两个变量在变化过程中是同方向变化？还是反方向变化？同向或反向程度如何？你变...

2018-03-20 20:34:23 2403

转载 XGBoost、LightGBM的详细对比介绍

sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是：bagging基本思想独立的训练一些基学习器(一般倾向于强大而复杂的模型比如完全生长的决策树)，然后综合他们的预测结果，通常集成模型的效果会优于基学习器，因为模型的方差有所降低。常见变体(按照样本采样方式的不同划分)Pasting:直接从样本集里随机抽...

2018-03-20 19:27:11 1957

转载支持向量机（SVM）必备知识(KKT、slater、对偶）

SVM目前被认为是最好的现成的分类器，SVM整个原理的推导过程也很是复杂啊，其中涉及到很多概念，如：凸优化问题、拉格朗日乘子法、对偶问题，slater条件、KKT条件还有复杂的SMO算法！相信有很多研究过SVM的小伙伴们为了弄懂它们也是查阅了各种资料，着实费了不少功夫！本文便针对SVM涉及到的这些复杂概念进行总结，希望为大家更好地理解SVM奠定基础。一、凸集和凸函数在讲解凸优化问题之前我们先来了解...

2018-03-20 19:24:46 969

翻译七种回归技术

摘要：本文解释了回归分析及其优势，重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素，最后介绍了选择正确的回归模型的关键因素。【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势，重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等...

2018-03-17 20:13:34 442

翻译 ridge、lasso、ElasticNet回归

在使用机器学习方法进行预测时，往往会出现这种情况：训练出的模型在训练集上的效果很好，但是在测试集上的效果很差，这种情况称为过拟合；如果模型本身在训练集上的效果就很差，这种情况称之为欠拟合。为了防止过拟合的现象出现，学者对线性回归进行了优化，于是产生了ridge、lasso还有ElasticNet回归，下面我们分别介绍这三种回归。首先让我们了解一下ridge回归。在线性回归（二）－线性回归公式推导中...

2018-03-17 19:25:55 2600

转载 logistic regression逻辑回归算法详解

1.参考资料这次不同的是，我要先列举几个自己参考的文献，博客等。真的是从里面受益匪浅，这也是我主要的参考资料。如果有需要的童鞋，可以先看它们。1）.http://blog.csdn.net/zouxy09/article/details/24971995/（讲L0，L1，L2范数讲的不错哦）2）.机器学习实战（Machine Learning in Action），Peter Harrington...

2018-03-17 17:27:15 1865

原创机器学习中的范数规则化之L0、L1与L2范数

今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大，为了不吓到大家，我将这个五个部分分成两篇博文。知识有限，以下都是我一些浅显的看法，如果理解存在错误，希望大家不吝指正。谢谢。监督机器学习问题无非就是“minimizeyour error while regula...

2018-03-16 16:31:39 491

转载 Python scikit-learn机器学习工具包学习笔记：cross_validation模块

sklearn.cross_validation模块的作用顾名思义就是做crossvalidation的。crossvalidation大概的意思是：对于原始数据我们要将其一部分分为train data，一部分分为testdata。train data用于训练，test data用于测试准确率。在test data上测试的结果叫做validationerror。将一个算法作用于一个原始数据，我们不...

2018-03-15 15:08:22 392

转载 ElasticNet回归及机器学习正则化(linear_model.ElasticNetCV)

要想理解ElasticNet回归，正则化是必须要首先知道的，其次是岭回归和Lasso回归，知道了这些，弹性网回归自然也就明白了。首先来看正则化：假设我们都知道利用最小二乘法来做线性回归，最小二乘法回归成功的条件是（我得承认以下的所有图都是我盗的）：即上面这个函数（损失函数，目前也是目标函数）达到最小值，可得到最优的拟合参数（即θ ）。但是存在这样一种情况，如果我们用来拟合的自变量过多（或者说特征变...

2018-03-15 14:36:44 6143 2

转载 GBDT：梯度提升决策树

综述GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。 GBD...

2018-03-11 21:19:48 413

转载机器学习中Bagging和Boosting的区别

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法（可能抽到重复的样本）。1. Bagging (bootstrap aggregating)Bagging即套袋法，其算法过程如下：从原...

2018-03-10 20:56:04 411

转载 pandas使用笔记

DataFrame使用笔记dates=pd.date_range('20160728',periods=6) #创建固定频度的时间序列df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) #创建6*4的随机数，索引，列名称。df2=pd.DataFrame({'A':pd.Timestamp('201607...

2018-03-08 19:48:05 363

转载 python pandas中.isnull().any()含义

问题描述： python pandas判断缺失值一般采用 isnull()，然而生成的却是所有数据的true／false矩阵，对于庞大的数据dataframe，很难一眼看出来哪个数据缺失，一共有多少个缺失数据，缺失数据的位置。首先对于存在缺失值的数据，如下所示import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.ra...

2018-03-08 19:07:44 51461

转载 pandas数据合并与重塑（pd.concat篇）

1 concatconcat函数是在pandas底下的方法，可以将数据根据不同的轴作简单的融合12pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False)12参数说明 obj...

2018-03-08 19:01:37 128986 10

转载利用随机森林做特征选择

随机森林具有准确率高、鲁棒性好、易于使用等优点，这使得它成为了目前最流行的机器学习算法之一。随机森林提供了两种特征选择的方法：mean decrease impurity和mean decrease accuracy。平均不纯度减少----mean decrease impurity 随机森林由多个决策树构成。决策树中的每一个节点都是关于某个特征的条件，为的是将数据集按照不同的响应...

2018-03-06 20:42:11 3642

转载随机森林的优缺点

随机森林是一个用随机方式建立的，包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。随机性主要体现在两个方面：（1）训练每棵树时，从全部训练样本（样本数为N）中选取一个可能有重复的大小同样为N的数据集进行训练（即bootstrap取样）；（2）在每个节点，随机选取所有特征的一个子集，用来计算最佳分割方式。优点1、在当前的很多数据集上，相对其他算法有着很大的优势，表...

2018-03-06 20:24:34 1774

转载教你如何迅速秒杀掉：99%的海量数据处理面试题

前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名 :-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结。毕竟受文章和理论之限，本文将摒弃绝大部分的细节，只谈方法/模式论，且注重用最通俗最直白的语言阐述相关问题。最后，有一点...

2018-03-05 17:17:04 260

转载逻辑回归优缺点简单分析

优点：1）预测结果是界于0和1之间的概率；2）可以适用于连续性和类别性自变量；3）容易使用和解释；缺点：1）对模型中自变量多重共线性较为敏感，例如两个高度相关自变量同时放入模型，可能导致较弱的一个自变量回归符号不符合预期，符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量，以减少候选变量之间的相关性；2）预测结果呈“S”型，因此从log(odds)向概率转化的过程是非线性的，...

2018-03-03 21:27:19 21170

Mr_HHH的博客