![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
特征工程
文章平均质量分 91
cy^2
想开就健康了
展开
-
特征变换:特征归一化(Normalization)作用以及方法 Min-Max、Z-Score
特征归一化(Normalization)作用以及方法 Min-Max、Z-Score原创 2022-06-06 20:04:03 · 7380 阅读 · 1 评论 -
1、异常值(outliers)检测综述:定义、检测方法、影响、修正
一、异常值定义 在数据科学项目、统计分析、机器学习应用中检测异常值非常重要; 异常值,也称离群值,是指样本中的个别值,其数值明显偏离所属样本的绝大部分观测值。 异常值可以分成两种:单变量(Univariate) 和多变量(Multivariate)二、导致异常值的原因 两大类原因:人为原因(Non-natural) 和自然原因(Natural )。 人为原因(Non-natural):比如常见的数据输入错误、处理错误、抽样误差等 详细地了解各种类型的异常值:数据输入错误:人原创 2022-05-22 14:15:40 · 3881 阅读 · 0 评论 -
2、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图
三、3σ\sigmaσ准则(异常值检测) 3σ\sigmaσ准则又称拉依达准则,是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。 3σ准则3\sigma准则3σ准则,仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提的。 在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴,如下图:3σ原则为:p(μ-σ<X<μ+σ)中的原创 2022-05-22 13:14:06 · 5242 阅读 · 0 评论 -
1、缺失值处理:暴力删除、直接转换、简单插补法
暴力删除、直接转换、简单插补法一.缺失值的类型二.常见的缺失值处理方法2.1、暴力删除、直接转换2.2、简单插补法一.缺失值的类型 在生成、采集、计算过程中被遗漏的数据信息,被称为缺失值;并不是表现为缺失状态的值就一定是缺失值,需要根据简单业务逻辑推断。 在对缺失数据进行处理前,了解数据缺失的类型十分必要的。完全变量 数据集中不含缺失值的变量称为完全变量。不完全变量 数据集中含缺失值的变量称为完全变量。 从缺失的分布来将缺失可以分为完全随机缺失,随机缺失和完全非随机原创 2022-05-20 19:10:13 · 2472 阅读 · 0 评论 -
2、特征选择(filter):缺失值比例、单变量方差
这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录原创 2022-04-23 18:09:55 · 997 阅读 · 0 评论 -
3、特征选择(filter):线性相关性的F检验
这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录原创 2022-04-23 14:44:25 · 4115 阅读 · 0 评论 -
4、特征选择(filter):卡方检验特征筛选
卡方检验特征筛选一、卡方检验(Chi-Squared Test)介绍1.1、提出假设1.2、采集数据1.4、设计统计量1.5、事件发生概率计算与统计推断1.6、 通过设置显著性水平进行特征筛选二、 应用2.1、离散变量的卡方检验2.2、连续变量的卡方检验一、卡方检验(Chi-Squared Test)介绍 通常情况下,卡方检验是针对于离散变量的独立性检验,卡方检验的零假设为两个离散变量相互独立。在特征选择中其用于标签和特征的判别,就能借此判断某特征和标签是不是独立的,如果是,则说明特征对标签的预测毫无原创 2022-04-19 22:33:24 · 4352 阅读 · 2 评论 -
5、特征选择(filter):方差分析(ANOVA)
方差分析ANOVA特征筛选一、方差分析(Analysis of Variance,简称ANOVA)基本原理二、连续变量和离散变量的方差分析2.1、提出假设2.2、采集数据2.3、设计统计量2.4、事件发生概率计算与统计推断三、python实现卡方检验3.1、自实现方差分析3.2、借助scipy进行方差分析3.3、借助sklearn进行方差分析一、方差分析(Analysis of Variance,简称ANOVA)基本原理方差分析(ANOVA)又称“变异数分析”或“F检验”,是R.A.Fister发明的,原创 2022-04-21 22:00:18 · 4398 阅读 · 1 评论 -
6、特征选择(filter):WOE迹象权数与IV值检验
特征选择(filter):WOE迹象权数与IV值检验原创 2022-07-25 11:06:57 · 635 阅读 · 0 评论