机器学习
csuRookie
这个作者很懒,什么都没留下…
展开
-
特征工程
将原始数据映射到特征图 1 左侧表示来自输入数据源的原始数据,右侧表示特征矢量,也就是组成数据集中样本的浮点值集。 特征工程指的是将原始数据转换为特征矢量。进行特征工程预计需要大量时间。机器学习模型通常期望样本表示为实数矢量。这种矢量的构建方法如下:为每个字段衍生特征,然后将它们全部连接到一起。图 1. 程序工程将原始数据映射到机器学习特征。映射数值机器学习模型根据浮点值进行训练,因此整数和浮点原...转载 2018-03-16 18:47:35 · 210 阅读 · 0 评论 -
机器学习算法的随机数据生成.Numpy/Scikit-learn
在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能,我们可以自己生成适合某一种模型的数据,用随机数据来做清洗,归一化,转换,然后选择模型与算法做拟合和预测。下面对scikit-learn和numpy生成数据样本的方法做一个总结。1. numpy随机数据生成...转载 2018-04-26 21:17:22 · 766 阅读 · 0 评论 -
机器学习.数据不平衡处理之SMOTE算法实现
数据不平衡的处理方法有三种:一是欠采样,二是过采样,三是调整权重。今天要说的是过采样中的一个算法SMOTE。在网上找到一个Python库imbalance-learn package 。它是专门用来处理数据不平衡的,网址在这:https://pypi.python.org/pypi/imbalanced-learn#id27 安装说明安装之后就可以使用了,下面是一个简单的例子:import mat...转载 2018-04-26 21:07:04 · 4170 阅读 · 0 评论 -
matplotlib 颜色板
matplotlib 颜色板(color)plot(color = “”)转载 2018-04-24 15:42:30 · 394 阅读 · 0 评论 -
熵和基尼系数
CART Classification & Regression Tree1.熵(entropy) 熵是表示随机变量不确定性的度量。设XX是一个取有限个值的离散随机变量,其概率分布为对于一个取有限个值的随机变量X,如果其概率分布为: P(X=xi)=pi,i=1,2,⋯,n那么随机变量X的熵可以用以下公式描述: H(X)=−∑i=1npilog...原创 2018-04-19 22:25:17 · 4375 阅读 · 0 评论 -
Sklearn数据预处理:scale, StandardScaler, MinMaxScaler, Normalizer
Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布)。实际中我们会忽略数据的分布情况,仅仅是通过改变均值来集中数据,然后将非连续特征除以他们的标准差。sklearn中 scale函数提供了简单快速的singlearray-like数据集操作。一、标准化,均值去除和按方差比例缩放(Standardization, or mean remova...转载 2018-04-19 19:18:21 · 1920 阅读 · 0 评论 -
sklearn 中的 Pipeline 机制
from sklearn.pipeline import Pipeline1管道机制在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pipelines)。注意:管道机制更像是编程技巧的创新,而非算法的创新。接下来我们以一个具体的例子来演示sklearn库中强大的Pipeli...转载 2018-04-19 19:16:51 · 211 阅读 · 0 评论 -
sklearn.decomposition.PCA
1、函数原型及参数说明sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False) 参数说明:n_components: 意义:PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n类型:int 或者 string,缺省时默认为None,所有成分被保留。 赋值为int,比如n_componen...转载 2018-04-19 19:10:20 · 4681 阅读 · 0 评论 -
Bagging
Bagging (Bootstrap Aggregation)1.对样本集重采样,选出n个样本2.对n个样本训练分类器(ID3,C4.5,C5.0,LogisticRegression..)3.重复以上两步m次,训练出m个分类器4.将数据放到m个分类器中,根据投票结果决定属于哪一类(回归问题可以取平均值,对于分类问题可以采取多数投票的方法)ResampleBootstrap sample: ...原创 2018-04-23 16:42:36 · 1192 阅读 · 0 评论 -
集成学习算法总结----Boosting和Bagging
集成学习算法总结----Boosting和Bagging作者:a1b2c3d41234561、集成学习概述1.1 集成学习概述集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森林。1.2 集...转载 2018-04-22 22:34:23 · 315 阅读 · 0 评论 -
generalization error 泛化误差
当train出来一个model之后,parameters已经定了下来。然后用test dataset去test这个network。 泛化误差就是test的时候的误差。转载 2018-04-22 21:47:55 · 2831 阅读 · 0 评论 -
机器学习常用的分类器比较
传统的机器学习的监督学习分类分类和回归,分类是争对离散的数据,而回归是争对连续的数据,在数据预处理好的基础上要对数据进行预测,通常采用CV交叉验证来进行模型评价和选择。这篇文章通过连续的数据结合sklearn库对各种回归器做一比较:1.linear regression缺点:顾名思义,linear regression是假设数据服从线性分布的,这一假设前提也限制了该模型的准确率,因为现实中由于噪声...转载 2018-04-22 21:15:15 · 14560 阅读 · 0 评论 -
一些定义
对于m个样本(x1,y1),(x2,y2)....(xm,ym)1.TSS (Total Sum of Square) 计算样本的总平方和 TSS/m-1 -> 方差2.RSS Residual Sum of Square 残差平方和RSS=SSE (Sum of Square Errors)误差平方和3.R2=1-RSS/TSS R2越大,拟合效果越好4.leven...原创 2018-04-18 16:31:47 · 187 阅读 · 0 评论 -
线性回归
线性回归: 1.高斯分布 2.极大似然估计 3.最小二乘法的本质用极大似然估计解释最小二乘是独立同分布的。是服从均值为0,方差某特定值的高斯分布 原因:中心极限定理 所以:用y和x去替换误差: 然后使用极大似然估计:取对数:就变成了最小二乘用极大似然估计要使得L(θ)最大,就要使得J(θ)最小Ridge Regression 岭回归:带L2正则的线性回归LASS...原创 2018-04-16 16:56:59 · 134 阅读 · 0 评论 -
良好特征的特点
表示 (Representation):良好特征的特点预计用时:10 分钟我们探索了将原始数据映射到合适特征矢量的方法,但这只是工作的一部分。现在,我们必须探索什么样的值才算这些特征矢量中良好的特征。避免很少使用的离散特征值良好的特征值应该在数据集中出现大约 5 次以上。这样一来,模型就可以学习该特征值与标签是如何关联的。也就是说,大量离散值相同的样本可让模型有机会了解不同设置中的特征,从而判断何...转载 2018-03-16 18:56:40 · 471 阅读 · 0 评论 -
递归式特征消除:Recursive feature elimination
递归式特征消除:Recursive feature elimination 1.1.1删除方差低的特征举个栗子,假如我们有一个是布尔值的特征,我们想去删去0(或1)个数大于总数的80%。偏差var[x]=p(1-p)所以我们赋值threshold为0.8*(1-0.8)>>> from sklearn....转载 2018-11-06 17:02:17 · 1396 阅读 · 0 评论