![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
菜菜机器学习笔记
文章平均质量分 83
sklearn,机器学习
温旧酒一壶~
这个作者很懒,什么都没留下…
展开
-
特征选择----皮尔逊(Pearson)相关系数
1、皮尔逊(Pearson)相关系数1、协方差能完美的解释两个变量之间相关的方向,但在解释强度上却不太行,举个例子:每个变量都是有量纲的,这里假设变量x的量纲为距离,可以是米,也可以是千米,甚至可以是光年,针对协方差的量纲问题,统一除以同样的量纲就可以搞定。正态分布标准化需要除以标准偏差,标准偏差的量纲与变量一致,这样就可以消除量纲了。让每一个变量x与变量x的均值的差,都除以x的标准偏差Sx,变量y也同理,则有以下关系式:(该关系式即为皮尔逊相关系数,简称相关系数,可以认为是协方差的标准化)上图中,原创 2022-03-21 17:33:21 · 11125 阅读 · 1 评论 -
特征选择:嵌入法---《菜菜机器学习笔记》
嵌入法:1、概念嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的feature_importances_属性,可以列出各个特征对树的建立的贡献,我们就可以基于这种贡献的评估,找出对模型建立最有用的特征。因此相比于过滤法,嵌入法的结果会更加精确到模型的效用本身,对于提高模型效力原创 2022-03-21 15:56:47 · 3070 阅读 · 0 评论 -
特征工程--方差过滤《菜菜机器学习笔记》
特征工程概念:特征工程将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以挑选最相关的特征,提取特征以及创造特征来实现。其中创造特征又经常以降维算法来实现。特征工程的目的:降低计算成本,提升模型上限特征选择 feature_selection特征提取、特征创造、特征选择特征工程的第一步:理解业务四种选择特征的方法:过滤法、嵌入法、包装法和降维算法一、Filter过滤法过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法。它是根据各种统计检验中的分原创 2022-03-02 08:47:30 · 1383 阅读 · 0 评论 -
数据预处理---处理分类型特征(编码与哑变量)与连续性特征(二值化与分段)----《菜菜机器学习笔记》
在机器学习中,大多数算法等都只能够处理数值型数据,不能处理文字。在sklearn当中,除了专用来处理文字的算法,其他算法在fit的时候全部要求输入数组或矩阵,也不能够导入文字型数据(其实手写决策树和普斯贝叶斯可以处理文字,但是sklearn中规定必须导入数值型)然而在现实中,许多标签和特征在数据收集完毕的时候,都不是以数字来表现的: 学历的取值可以是 [“小学”,“初中”,“高中”,“大学”] 付费方式可能包含 [“支付宝”,“现金”,“微信”] …在这种情况下,为了让数据...原创 2022-03-01 13:54:27 · 1672 阅读 · 0 评论 -
数据预处理--缺失值填补《菜菜学习笔记》
机器学习和数据挖掘中所使用的数据,永远不可能是完美的。很多特征,对于分析和建模来说意义非凡,但对于实际收集数据的人却不是如此,因此数据挖掘之中,常常会有重要的字段缺失值很多,但又不能舍弃字段的情况。因此,数据预处理中非常重要的一项就是处理缺失值。我们采用从泰坦尼克号提取出来的数据,这个数据有三个特征,如下:Age 数值型 Sex 字符型 Embarked 字符型import pandas as pd#index_col=0是因为原数据中第1列本就是索引data = pd.read_csv原创 2022-02-28 15:56:54 · 2342 阅读 · 0 评论