小菜鸟对数据预处理的认识

最新推荐文章于 2022-09-09 19:30:35 发布

hzz_94

最新推荐文章于 2022-09-09 19:30:35 发布

阅读量585

点赞数

分类专栏： DL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40510799/article/details/89046197

版权

DL 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在工程实践中，我们得到的数据会存在有缺失值、重复值等，在使用之前需要进行数据预处理。数据预处理没有标准的流程，通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为：去除唯一属性、处理缺失值、特征（属性）编码、数据标准化正则化、特征选择。

数据预处理方法介绍：

1、去除唯一属性：

唯一属性通常是一些ID属性，这些属性并不能刻画样本本身的分布规律，所以简单地删除这些属性即可。

2、处理缺失值：

缺失值处理的三种方法：直接使用含有缺失值的特征；删除含有缺失值的特征；补全缺失值。

常见的补全缺失值的方法：平均值填充、同类均值填充、K最近邻法、回归、期望值最大化方法（EM）

①平均值填充：将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。如何空值是数值型的，就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值；如果空值是非数值型的，就根据统计学中的众数原理，用该属性在其他所有对象的取值次数最多的值来补齐该缺失的属性值。

②同类均值填充：首先将样本进行分类，然后以该类中样本的均值来填充缺失值。

③K最近邻法：先根据欧式距离来确定距离具有缺失数据样本最近的K个样本，将这K个值的加权平均来估计该样本的缺失数据

④回归：基于完整的数据集，建立回归方程。对于包含空值的对象，将已知属性值带入方程来估计未知属性值，以此估计值进行填充。当变量不是线性相关时会导致有偏差的估计。

⑤期望值最大化方法（EM）：EM算法是一种在不完全数据情况下计算极大似然估计的迭代算法。在每一迭代循环过程中交替执行两个步骤：E步（期望步）——在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望；M步（极大化步）——用极大化对数似然函数以确定参数的值，并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛，即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。

3、特征（属性）编码：

①特征二元化：特征二元化的过程是将数值型的属性转换为布尔值的属性，设定一个阈值作为划分属性值为0和1的分隔点。

②独热编码（One-HotEncoding）：独热编码采用N位状态寄存器来对N个可能的取值进行编码，每个状态都由独立的寄存器来表示，并且在任意时刻只有其中一位有效。

4、数据标准化正则化：

数据标准化是将样本的属性缩放到某个指定的范围，进行标准化的原因是：某些算法要求样本均有零均值和单位方差；需要消除样本不同属性具有不同量级时的影响。

数据正则化是将样本的某个范数缩放到位1，正则化的过程是针对单个样本的，对于每个样本将样本缩放到单位范数。

5、特征选择：

从给定的特征集合中选出相关特征子集的过程称为特征选择。进行特征选择的两个主要原因是：减轻维数灾难问题；降低学习任务的难度。进行特征选择必须保证不丢失重要特征。常见的降维方法：SVD、PCA、LDA

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
小菜鸟对数据预处理的认识

在工程实践中，我们得到的数据会存在有缺失值、重复值等，在使用之前需要进行数据预处理。数据预处理没有标准的流程，通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为：去除唯一属性、处理缺失值、特征（属性）编码、数据标准化正则化、特征选择。数据预处理方法介绍：1、去除唯一属性：唯一属性通常是一些ID属性，这些属性并不能刻画样本本身的分布规律，所...
复制链接

扫一扫

专栏目录

hzz_94 CSDN认证博客专家 CSDN认证企业博客

码龄7年

科大讯飞股份有限公司

63: 原创

33万+: 周排名

228万+: 总排名

6万+: 访问

: 等级

1297: 积分

8: 粉丝

22: 获赞

20: 评论

68: 收藏

私信

关注

热门文章

分类专栏

DL 4篇
Python 55篇

最新评论

接雨水(python)
weixin_45559315: [code=python] def start(list=[]): length=len(list) if length<2: #条件不成立，直接退出 return for i in range(length): lmax=0 for i1 in range(i,0,-1): if lmax<l[i1]: lmax=l[i1] rmax=0 for i2 in range(i,length): if rmax<l[i2]: rmax=l[i2] res=max(min(lmax,rmax)-l[i],0) print(i, l[i],'lmax='+str(lmax),'rmax='+str(rmax),'res='+str(res)) [/code]
珍珠移动距离和(python拼多多)
CSDN-Ada助手: 非常感谢你的分享，这篇博客对于想要学习珍珠移动距离和算法的读者来说非常有帮助。我觉得你可以写一篇关于python数据可视化的技术博文，介绍如何利用python中的数据可视化库展示珍珠移动距离和算法的结果，这样的技术文章对其他用户也会非常有启发作用。下一篇你可以继续就python数据可视化进行深入探讨，相信会有更多读者受益于此。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
字母异位词分组(python)
qq_39951415: 少一组for循环
字母异位词分组(python)
qq_39951415: class Solution(object): def groupAnagrams(self, strs): """ :type strs: List[str] :rtype: List[List[str]] """ result = [] index_dict = {} for index, s in enumerate(strs): tmp = ''.join(sorted(list(s))) if index_dict.get(tmp) != None: result[index_dict[tmp]].append(strs[index]) else: result_index = len(result) index_dict[tmp] = result_index result.append([strs[index]]) return result
括号的分数(python)
haohui_H: elif len == 2 需要去掉

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。