特征工程
文章平均质量分 95
人鱼线
1、越努力,越幸运! 2、机会总是留给有准备的人! 3、承受别人不能承受的,才能得到别人不能得到的!
展开
-
处理正负样本不均衡问题
在原文的基础上 Ref: https://www.zhihu.com/question/27535832/answer/223882022 进行修改。1 通过过抽样和欠抽样解决样本不均衡抽样是解决样本分布不均衡相对简单且常用的方法,包括过抽样和欠抽样两种。过抽样过抽样(也叫上采样、over-sampling)方法通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制...原创 2020-03-15 11:49:36 · 5463 阅读 · 0 评论 -
特征工程之连续/离散特征的处理
离散特征:1.无序离散特征:one-hot encoding,比如所属国家、城市 (1)无序离散特征:one-hot encoding,比如所属国家,城市。(1)如果one-hot之后unique值不多可以不用做Embedding, (2)但是如果该特征unique值过多,比如所属国家、城市,onehot产生的矩阵过宽,这种情况下,我们的通常做法就是将其转换为embeddi...原创 2020-03-13 12:19:32 · 6111 阅读 · 1 评论 -
特征工程之连续/离散特征的处理
离散特征:无序离散特征:one-hot encoding,比如所属国家、城市无序离散特征:one-hot encoding,比如所属国家,城市。one-hot,比如所属国家、城市, 但是如果该特征unique值过多,onehot产生的矩阵过宽,所以通常采用下面的方法来减少维度也可以先做LabelEncoder将特征的不同取值区分开,然后再embedding有序离散特征:...原创 2020-03-09 17:52:36 · 2379 阅读 · 0 评论 -
数据正则化 (data normalization) 的原理及实现 (Python sklearn)
原理数据正规化(data normalization)是将数据的每个样本(向量)变换为单位范数的向量,各样本之间是相互独立的.其实际上,是对向量中的每个分量值除以正规化因子.常用的正规化因子有 L1, L2 和 Max.假设,对长度为 n 的向量,其正规化因子 z 的计算公式,如下所示:注意:Max 与无穷范数不同,无穷范数是需要先对向量的所有分量取绝对值,然后取其中的最大值;而...原创 2020-03-09 08:16:24 · 8177 阅读 · 0 评论 -
过拟合的处理方法
这里仅贴出相关链接,有空时再详细补充。怎么判断欠拟合和过拟合:Ref:学习曲线——判断欠拟合还是过拟合过拟合的处理方法:从样本方面考虑:纵向上增加样本数量 横向上进行特征选择/降维 横纵都有:归一化: (1)MinMaxScaler:对列数据做(x-min)/(max-min) 变换 (2)MaxAbsScaler:对列数据做2(x-min)/(max-min...原创 2020-03-06 23:57:21 · 580 阅读 · 0 评论 -
特征工程之特征预处理
在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。1. 特征的标准化和归一化由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体的预处理操作。 z-score标准化:这是最常见的特征预处理方式,基本所...转载 2019-08-02 15:21:41 · 181 阅读 · 0 评论 -
特征工程之特征表达
特征工程之特征表达特征工程之特征表达在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面。缺失值处理 特征有缺失值是非常常见的,大部分机器学习模型在拟合前需要所有的特征都有...原创 2019-08-02 15:03:16 · 193 阅读 · 0 评论 -
特征工程之特征选择
特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己...转载 2019-08-02 15:28:14 · 253 阅读 · 0 评论 -
特征工程之特征预处理
在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体的预处理操作。 z-score标准化:这是最常见的特征预处理方式,基本所有的线性模型在拟...转载 2019-08-02 15:24:40 · 359 阅读 · 0 评论