机器学习
文章平均质量分 60
多加加多
这个作者很懒,什么都没留下…
展开
-
数据挖掘算法原理与实践第5关:生成多项式特征
本关任务:利用sklearn生成多项式特征。为什么需要多项式特征在数据挖掘中,获取数据的代价经常是非常高昂的。所以有时就需要人为的制造一些特征,并且有的特征之间是有关联的。生成多项式特征可以轻松的为我们获取更多的数据,并获得特征的更高维度和互相间关系的项且引入了特征之间的非线性关系,可以有效的增加模型的复杂度。PolynomialFeatures代码实现:import numpy as npfrom sklearn.preprocessing import PolynomialFeatures原创 2022-01-21 12:53:20 · 1717 阅读 · 0 评论 -
数据挖掘算法原理与实践第三关:归一化
本关任务:利用sklearn对数据进行归一化。为什么使用归一化归一化是缩放单个样本以具有单位范数的过程。归一化能够加快模型训练速度,统一特征量纲,避免数值太大。值得注意的是,归一化是对每一个样本做转换,所以是对数据的每一行进行变换。而之前我们讲过的方法是对数据的每一列做变换。L1范数归一化L1范数就是向量各元素的绝对值之和,也被称为是"稀疏规则算子,有两个好处:1、特征选择2、可解释性代码实现from sklearn.preprocessing import normalizedata =原创 2022-01-21 12:24:32 · 1291 阅读 · 0 评论 -
数据挖掘算法原理与实践第二关:线性转换
本关任务:利用sklearn对数据进行非线性转换。为什么要进行线性转换如果特征不服从或者近似服从标准正态分布(即,零均值、单位标准差的正态分布)的话,算法的表现会大打折扣,非线性转换就是将我们的特征映射到**均匀分布或者高斯分布(**即正态分布)。映射到均匀分布将最大的数映射为1,最小的数映射为1,其他的数按从小到大的顺序均匀分布在0到1之间,如有相同的数则取平均值代码实现:from sklearn.preprocessing import QuantileTransformerimport原创 2022-01-21 11:28:23 · 707 阅读 · 0 评论 -
数据挖掘算法原理与实践第一关:标准化
本关任务:利用sklearn对数据进行标准化。为什么要进行标准化在机器学习中常忽略数据的分布,仅仅对数值做零均值、单位标准差的处理。在一个机器学习算法的目标函数里的很多元素所有特征都近似零均值,方差具有相同的阶。如果某个特征的方差的数量级大于其它的特征,那么,这个特征可能在目标函数中占主导地位,这使得模型不能从其它特征有效地学习。三种标准化方式Z-score标准化公式:结果:对每个特征/每列来说所有数据都聚集在0附近,方差值为1。代码实现:from sklearn import prep原创 2022-01-21 10:57:13 · 2307 阅读 · 0 评论