ML学习笔记
AuGuSt_81
阿里巴巴算法工程师
专注于时序
展开
-
机器学习中数据采样方式
当机器学习中样本比例不平衡时,通常会对数据进行采样的方法,对数据采样可以有针对性地改变数据中样本的比例,采样一般有两种方式:over-sampling 和under-sampling,前者是增加样本数较少的样本,其方式是直接复制原来的样本,而后者是减少样本数较多的样本,其方式是丢弃这些多余的样本。通常来说,当总样本数目较多的时候考虑under-sampling,而样本数数目较少的时候考原创 2017-11-21 19:59:08 · 6246 阅读 · 0 评论 -
Pandas常用基本操作(整理)
一、查看数据(查看对象的方法对于Series来说同样适用)1.查看DataFrame前xx行或后xx行a=DataFrame(data);a.head(6)表示显示前6行数据,若head()中不带参数则会显示前5行数据。a.tail(6)表示显示后6行数据,若tail()中不带参数则会显示后5行数据。2.查看DataFrame的index,columns以及valuesa.inde原创 2018-01-06 16:33:56 · 2287 阅读 · 0 评论 -
scikit-learn 线性回归算法库小结
本文内容主要来自这篇文章。scikit-learn对于线性回归提供了比较多的类库,这些类库都可以用来做线性回归分析,本文就对这些类库的使用做一个总结,重点讲述这些线性回归算法库的不同和各自的使用场景。 线性回归的目的是要得到输出向量YY和输入特征XX之间的线性关系,求出线性回归系数θθ,也就是Y=XθY=Xθ。其中YY的维度为mx1,XX的维度为mxn,而θθ的维度为nx1原创 2018-01-06 21:09:13 · 431 阅读 · 0 评论 -
Boosting算法学习
(1)提升算法(Boosting)是常用的有效的统计学习算法,属于迭代算法,它通过不断地使用一个弱学习器弥补前一个弱学习器的“不足”的过程,来串行地构造一个较强的学习器,这个强学习器能够使目标函数值足够小。(2)Bagging也是一种常用的统计学习方法,两者经常放在一起对比,它们不同的是,Bagging将在Bootstrap采样得到的不同训练子集上的弱学习器的结果综合考虑,各个弱学习器的构建过原创 2018-01-08 17:11:37 · 644 阅读 · 0 评论 -
特征构建:生成多项式特征
机器学习,一些比赛竞赛中,通常会给一定的特征数据进行分类或者回归预测。有时需要构建更多的特征,然后对特征再进行特征选择。通过增加一些输入数据的非线性特征来增加模型的复杂度通常是有效的。一个简单通用的办法是使用多项式特征,这可以获得特征的更高维度和互相间关系的项。这在 PolynomialFeatures 中实现:>>> import numpy as np>>> from sklea原创 2018-01-25 23:44:59 · 7668 阅读 · 0 评论 -
特征选择:常见方法总结
特征选择方法目的:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解方法:一、方差选择法。(from sklearn.feature_selection import VarianceThreshold) a. 特征值需为离散型变量,若是连续型,需要连续变量离散化。b. 最简单。实用性差。可作为特征选择预处理。 问:为什么方差原创 2018-01-26 15:15:53 · 982 阅读 · 0 评论 -
使用sklearn进行集成学习——理论
磨刀不误砍柴功,我们花了这么多时间来学习必要的理论,我强调一次:必要的理论!集成学习模型的调参工作的核心就是找到合适的参数,能够使整体模型在训练集上的准确度和防止过拟合的能力达到协调,从而达到在样本总体上的最佳准确度。有了本文的理论知识铺垫,在下篇中,我们将对Random Forest和Gradient Tree Boosting中的每个参数进行详细阐述,同时也有一些小试验证明我们的结论。原创 2018-02-27 10:14:13 · 448 阅读 · 0 评论