机器学习
Taohongfei_huster
这个作者很懒,什么都没留下…
展开
-
模型的偏差和方差
一、偏差与方差在机器学习中,我们用训练数据集去训练(学习)一个model(模型),通常的做法是定义一个Loss function(误差函数),通过将这个Loss(或者叫error)的最小化过程,来提高模型的性能(performance)。然而我们学习一个模型的目的是为了解决实际的问题(或者说是训练数据集这个领域(field)中的一般化问题),单纯地将训练数据集的loss最小化,并不能保证在解决...转载 2018-09-08 22:20:12 · 8030 阅读 · 0 评论 -
Kaggle 数据挖掘比赛经验分享(转)
https://www.cnblogs.com/gczr/p/6943617.htmlhttps://www.cnblogs.com/gczr/p/6943914.htmlhttp://www.cnblogs.com/zhizhan/p/5826089.html转载 2018-10-06 16:14:56 · 170 阅读 · 0 评论 -
Python数据可视化-seaborn
https://www.cnblogs.com/gczr/p/6767175.html转载 2018-10-06 16:19:38 · 136 阅读 · 0 评论 -
pandas进行one-hot编码
1.读取数据本文采用的是美国成年人收入的数据集import pandas as pdfrom IPython.display import displaydata = pd.read_csv( adult_path, header=None, index_col=False, names=['age', 'workclass', 'fnlwgt', 'educati...原创 2018-10-15 15:56:31 · 15425 阅读 · 0 评论 -
分箱、离散化、线性模型和树
数据表示的最佳方法不仅取决于数据的语义,还取决于所使用的模型的种类。线性模型与基于树的模型(比如决策树、梯度提升树和随机森林)是两种成员很多同时又非常常用的模型,它们在处理不同的特征表示时就具有非常不同的性质。本节以wave数据集为例,它只有一个输入特征。1.线性回归模型和决策树回归在数据集上的对比from sklearn.linear_model import LinearRegres...原创 2018-10-15 20:02:11 · 1630 阅读 · 0 评论 -
交互特征与多项式特征
一、多项式特征想要丰富特征,特别是对于线性模型而言,除了分箱外,另一种方法是添加原始数据的交互特征和多项式特征。对于给定的特征x,我们可以考虑x,x**2、x**3等,可用preprocessing模块的PolynomialFeatures实现。同样采用wave数据集进行分析。from sklearn.linear_model import LinearRegressionfrom s...原创 2018-10-15 22:24:53 · 3859 阅读 · 2 评论 -
单变量非线性变换
添加特征的平方或者立方可以改进线性回归模型,其他的变换通常也对变换某些特征有用,特别是应用数学函数,如log,exp或sin。虽然基于树的模型只关注特征的顺序,但线性模型和神经网络依赖于每个特征的尺度和分布。如果特征与目标之间存在非线性关系,那么建模就变得非常困难,特别是对于回归问题。log和exp函数可以帮助调节数据的相对比例,从而改变线性模型和神经网络的学习效果。此外,大部分模型都在每个特征(...原创 2018-10-15 23:06:50 · 836 阅读 · 0 评论 -
自动化特征选择
自动化特征选择用于判断每个特征的作用,从原始数据特征中选择那些最有用的特征,通常有三种策略:单变量统计、基于模型的选择和迭代选择。下面结合cancer数据集对它们进行分析。一、单变量统计 在单变量统计中,我们计算每个特征和目标值之间的关系是否存在统计显著性,然后选择具有最高置信度的特征。(这些测试的一个关键性质就是它们是单变量的,即只单独考虑每个特征,如果一个特征...原创 2018-10-16 16:16:07 · 2260 阅读 · 0 评论 -
利用专家知识——一个预测自行车租赁的简单例子
通常来说,领域专家可以帮助找出有用的特征,其信息量比原始数据大得多。自行车数据集给出了2015年8月每天的自行车租赁的数目,每隔3小时统计一次,要求预测给定日期和时间,出租自行车的数目。1.加载数据import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport mglearncitibike ...原创 2018-10-16 21:35:13 · 1885 阅读 · 2 评论 -
特征工程
https://segmentfault.com/a/1190000012084849转载 2018-10-06 10:22:02 · 119 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
https://www.cnblogs.com/jasonfreak/p/5448462.html转载 2018-10-06 10:20:36 · 111 阅读 · 0 评论 -
使用Python进行描述性统计
https://www.cnblogs.com/jasonfreak/p/5441512.html#4000510转载 2018-10-06 10:19:47 · 382 阅读 · 0 评论 -
线性回归分析知识总结
线性回归中可能遇到的问题求解损失函数的最小值有两种方法:梯度下降法以及正规方程。 特征缩放:即对特征数据进行归一化操作,进行特征缩放的好处有两点,一是能够提升模型的收敛速度,因为如果特征间的数据相差级别较大的话,以两个特征为例,以这两个特征为横纵坐标绘制等高线图,绘制出来是扁平状的椭圆,这时候通过梯度下降法寻找梯度方向最终将走垂直于等高线的之字形路线,迭代速度变慢。但是如果对特征进行归一化操...转载 2018-09-06 20:20:51 · 3473 阅读 · 0 评论 -
正则化与岭回归和lasso回归
总结得很好,对作者表示感谢!https://www.cnblogs.com/Belter/p/8536939.html转载 2018-09-06 22:25:51 · 497 阅读 · 0 评论 -
决策树
https://blog.csdn.net/qingqing7/article/details/78416708转载 2018-09-19 22:04:33 · 117 阅读 · 0 评论 -
决策树过拟合
一.什么是过度拟合数据? 过度拟合(overfitting)的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h'属于H,使得在训练样例上h的错误率比h'小,但在整个实例分布上h'比h的错误率小,那么就说假设h过度拟合训练数据. overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数...转载 2018-09-19 22:22:22 · 6514 阅读 · 0 评论 -
决策树知识点总结
本章介绍关于决策树的知识,理论部分来自周老师的西瓜书,代码部分来自《机器学习实战》,有位作者对代码实现已经做了很好的介绍,有兴趣的朋友可以看一下,感谢作者。(https://www.cnblogs.com/dennis-liucd/p/7905793.html)。一、基本流程顾名思义,决策树是基于树结构来进行决策的,这也是人类在面临决策问题时一种很自然的处理机制。决策过程中提出的每一个问题...原创 2018-09-20 21:25:24 · 2858 阅读 · 0 评论 -
基本的数据预处理
一.标准化1.标准差法# 从sklearn.preprocessing导入StandardScalerfrom sklearn.preprocessing import StandardScaler# 标准化数据,保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值而主导ss = StandardScaler()# fit_transform()先拟合...原创 2018-10-11 22:24:47 · 232 阅读 · 0 评论 -
sklearn进行特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择...原创 2018-10-06 10:18:36 · 160 阅读 · 0 评论 -
线性回归模型的sklearn实现
关于线性回归模型的知识总结,请参见这里。此处主要介绍线性模型的相关算法在sklearn中的实现:一、线性回归(最小二乘法)from sklearn.linear_model import LinearRegressionX, y = mglearn.datasets.make_wave(n_samples=60)#导入数据X_train, X_test, y_train, y_tes...原创 2018-10-23 20:29:28 · 2794 阅读 · 0 评论