数据挖掘与预测分析读书笔记(一)

最新推荐文章于 2024-01-05 00:55:22 发布

夏曦儿

最新推荐文章于 2024-01-05 00:55:22 发布

阅读量308

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55862255/article/details/120014487

版权

数据挖掘专栏收录该内容

9 篇文章 0 订阅

订阅专栏

数据挖掘的任务：描述、评估、预测、分类、聚类、关联

数据：分类数据、顺序数据、数值数据

收集数据的五大调查方式：抽查、重点调查、普查、统计报表、典型调查

数据预处理：

原因：原始数据不完整且含有噪声（过时、冗余、缺失、离群、异常）

最主要目的：最小化无用数据输入和无用数据输出（GIGO）

处理缺失值：

1、常量替代

2、对于分类数据用众数替代，对于数值型数据用均值替代

3、从数据分布中随机产生一个值替代

4、估计缺失值

注：对于数值型数据 3比2好的一点是中心和散布的度量值与原始值更为接近

标准的4个离散度量：极差、标准差（SD）、平均绝对偏差、四分位差（IQR）

标准差：（最常见，但对离群值异常敏感，涉及极端值时考虑用平均绝对偏差，

或去除离群值后再用）

平均绝对偏差：

数据规范化：

1、min-max法：[ X-Xmin ] / [ Xmax-Xmin ] (0,1)之间

2、Z-score法：[ X-mean(X) ] / SD(X) （-x，x）之间 Z-score之后均值为0 标准差为1 但并非是正态分布可能是左右倾斜数据 需要用Q-Q图（正态概率图）来进行检验数据是否为正态分布，就是画出不同分位数的占比，如果数据点散布在一条直线上则满足正态性，反之不满足。

数据右偏可以对数据取对数、取平方根、平方根倒数等变换使数据接近正态分布。因为这样变换后的导数是逐渐减小的，增速逐渐减慢可使数据向左移，如果左偏的话可以取相反数转化为右偏数据。

3、小数规范化：X / 10^d ,其中d是数据位数（-1，1）之间

判断数据倾斜度：

倾斜度 = 3*（均值-中位数）/ 标准差

若均值大于中位数为右倾数据正倾斜

若均值小于中位数为左倾数据负倾斜

处理离群值：

非参数方法：

1、校验数据的直方图即可

2、Z-score值小于-3或大于3判定为离群值（有SD所以对极端值敏感）

3、采用IQR法：IQR=Q3-Q1，Q3是数据75%分位数，Q1是数据25%分位数

（比SD衡量离散度更好）

小于【Q1-1.5*IQR】或大于【Q3+1.5*IQR】视为离群值

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
数据挖掘与预测分析读书笔记(一)

数据挖掘的任务：描述、评估、预测、分类、聚类、关联数据：分类数据、顺序数据、数值数据收集数据的五大调查方式：抽查、重点调查、普查、统计报表、典型调查数据预处理：原因：原始数据不完整且含有噪声（过时、冗余、缺失、离群、异常）最主要目的：最小化无用数据输入和无用数据输出（GIGO）处理缺失值：1、常量替代2、对于分类数据用众数替代，对于数值型数据用均值替代3、从数据分布中随机产生一个值替代4、估计缺失值注：对于数值型数据 3比2好的一点是中心和散布的度量值与原始值更为
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

夏曦儿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。