![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
sklearn
Taohongfei_huster
这个作者很懒,什么都没留下…
展开
-
基本的数据预处理
一.标准化1.标准差法# 从sklearn.preprocessing导入StandardScalerfrom sklearn.preprocessing import StandardScaler# 标准化数据,保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值而主导ss = StandardScaler()# fit_transform()先拟合...原创 2018-10-11 22:24:47 · 204 阅读 · 0 评论 -
利用专家知识——一个预测自行车租赁的简单例子
通常来说,领域专家可以帮助找出有用的特征,其信息量比原始数据大得多。自行车数据集给出了2015年8月每天的自行车租赁的数目,每隔3小时统计一次,要求预测给定日期和时间,出租自行车的数目。1.加载数据import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport mglearncitibike ...原创 2018-10-16 21:35:13 · 1791 阅读 · 2 评论 -
自动化特征选择
自动化特征选择用于判断每个特征的作用,从原始数据特征中选择那些最有用的特征,通常有三种策略:单变量统计、基于模型的选择和迭代选择。下面结合cancer数据集对它们进行分析。一、单变量统计 在单变量统计中,我们计算每个特征和目标值之间的关系是否存在统计显著性,然后选择具有最高置信度的特征。(这些测试的一个关键性质就是它们是单变量的,即只单独考虑每个特征,如果一个特征...原创 2018-10-16 16:16:07 · 2191 阅读 · 0 评论 -
单变量非线性变换
添加特征的平方或者立方可以改进线性回归模型,其他的变换通常也对变换某些特征有用,特别是应用数学函数,如log,exp或sin。虽然基于树的模型只关注特征的顺序,但线性模型和神经网络依赖于每个特征的尺度和分布。如果特征与目标之间存在非线性关系,那么建模就变得非常困难,特别是对于回归问题。log和exp函数可以帮助调节数据的相对比例,从而改变线性模型和神经网络的学习效果。此外,大部分模型都在每个特征(...原创 2018-10-15 23:06:50 · 807 阅读 · 0 评论 -
交互特征与多项式特征
一、多项式特征想要丰富特征,特别是对于线性模型而言,除了分箱外,另一种方法是添加原始数据的交互特征和多项式特征。对于给定的特征x,我们可以考虑x,x**2、x**3等,可用preprocessing模块的PolynomialFeatures实现。同样采用wave数据集进行分析。from sklearn.linear_model import LinearRegressionfrom s...原创 2018-10-15 22:24:53 · 3791 阅读 · 2 评论 -
分箱、离散化、线性模型和树
数据表示的最佳方法不仅取决于数据的语义,还取决于所使用的模型的种类。线性模型与基于树的模型(比如决策树、梯度提升树和随机森林)是两种成员很多同时又非常常用的模型,它们在处理不同的特征表示时就具有非常不同的性质。本节以wave数据集为例,它只有一个输入特征。1.线性回归模型和决策树回归在数据集上的对比from sklearn.linear_model import LinearRegres...原创 2018-10-15 20:02:11 · 1569 阅读 · 0 评论 -
特征工程
https://segmentfault.com/a/1190000012084849转载 2018-10-06 10:22:02 · 100 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
https://www.cnblogs.com/jasonfreak/p/5448462.html转载 2018-10-06 10:20:36 · 92 阅读 · 0 评论 -
使用Python进行描述性统计
https://www.cnblogs.com/jasonfreak/p/5441512.html#4000510转载 2018-10-06 10:19:47 · 360 阅读 · 0 评论 -
sklearn进行特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择...原创 2018-10-06 10:18:36 · 141 阅读 · 0 评论 -
线性回归模型的sklearn实现
关于线性回归模型的知识总结,请参见这里。此处主要介绍线性模型的相关算法在sklearn中的实现:一、线性回归(最小二乘法)from sklearn.linear_model import LinearRegressionX, y = mglearn.datasets.make_wave(n_samples=60)#导入数据X_train, X_test, y_train, y_tes...原创 2018-10-23 20:29:28 · 2758 阅读 · 0 评论