数据认知与预处理（数据挖掘）

最新推荐文章于 2024-05-19 23:31:32 发布

吗喽也是命

最新推荐文章于 2024-05-19 23:31:32 发布

阅读量120

点赞数

文章标签：数据挖掘 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2202_75347029/article/details/131350644

版权

数据的中心趋势度量：

平均值（受极端影响，可通过计算截断均值减少极端值的影响）：

$\bar{x} =(x _{1}+x_{2}+x_{3}+x_{4}\cdots x_{n})\setminus \frac{1}{n}$

中位数：

$median = L_{1}+\left ( \frac{N\setminus 2-\left ( \sum frep \right )_{l}}{freq_{median}} \right )width$

众数：

一组数据中出现数据最多的值叫众数，有时众数不止一个，有一个、两个或三个的数据集分别称为单峰、双峰和三峰数据集，有两个及以上众数的数据集统称为多峰数据集

中列数（受极端值影响）：

最大值和最小值的平均值。

数据的离散趋势度量：

极差与分位数（分位数常用四分位数、十分位数和百分位数）：

极差又称全距，是指一组数据集观测值中的最大值和最小值之差。

分位数是指将所有过程中按递增顺序排列，如何将数据划分为大小基本相同的连续集合每隔一段距离取数据分布上的一个数据点，这个数据点就叫做数据集的分位数。假设一个将数据集划分为k个部分，那么就有k-1个数据点。

四分位极差：

$IQR=Q_{3}-Q_{1}$

五数概括与盒图:

五数：中位数、四分位数的 $Q_{1}$ 和 $Q_{3}$ 、最大和最小观测值。

盒长=IQR

方差和标准差:

设属性X有N个观测值 $x_{1},x_{2},x_{3},\cdots ,x_{N}$ ,其方差为：

$\sigma ^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\bar{x})^{2}=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\bar{x}^{2}$

$\bar{x}$ 是观测值的均值，标准差为方差 $\sigma ^{2}$ 的算术平方根。

对象相似性计算方法：

欧式距离（两点直线距离）

$C = \sqrt{({x_{1}}-{x_{2}})^{2}+({y_{1}}-{y_{2}})^{2}}$

曼哈顿距离（实际距离）

$C = \left |x _{1} -x_{2}\right |+\left |y _{1} -y_{2}\right |$

缺失值常见处理方法：

①直接删除缺失值。

②人工填写。

③使用全局常量填充缺失值。

④使用属性的中心趋势度量值填充缺失值。

⑤使用与给定元组属于同一类的所有样本的属性均值和中位数填充。

⑥使用最有可能的值填充。

识别离群点和平滑噪声数据：

①分箱法

等深分箱：不同的箱里有相同个数的数据。

等宽分箱：将变量的取值范围分为k个等宽的区间，每个区间作为一个分箱。

等频分箱：把观测值按照从小到大的顺序排列根据观测值的个数等分为k部分，每部分当作一个分箱。

基于k均值聚类的分箱：使用k均值聚类法将观测值聚为k类，但在聚类过程中需要保证分箱的有序性，即在第一个分箱中的所有的观测值都要小于第二个分箱中的观测值，第二个分箱中的所有观察值都要小于第三个分箱中的观测值等。

使用分箱法后，可以使用光滑技术对离群点和噪点进行光滑（用箱平均值光滑、用箱中位数光滑、用箱边界光滑）

②回归

一元线性回归分析和多元线性回归分析。

数据规范化：

最小-最大规范化、Z-score规范化和按小数规范化

吗喽也是命

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
数据认知与预处理（数据挖掘）

基于k均值聚类的分箱：使用k均值聚类法将观测值聚为k类，但在聚类过程中需要保证分箱的有序性，即在第一个分箱中的所有的观测值都要小于第二个分箱中的观测值，第二个分箱中的所有观察值都要小于第三个分箱中的观测值等。分位数是指将所有过程中按递增顺序排列，如何将数据划分为大小基本相同的连续集合每隔一段距离取数据分布上的一个数据点，这个数据点就叫做数据集的分位数。一组数据中出现数据最多的值叫众数，有时众数不止一个，有一个、两个或三个的数据集分别称为单峰、双峰和三峰数据集，有两个及以上众数的数据集统称为多峰数据集。
复制链接

扫一扫

吗喽也是命

CSDN认证博客专家 CSDN认证企业博客

码龄2年

51: 原创

35万+: 周排名

9万+: 总排名

6万+: 访问

: 等级

749: 积分

99: 粉丝

131: 获赞

77: 评论

830: 收藏

私信

关注

热门文章

分类专栏

爬虫 2篇
大数据 41篇

最新评论

Hadoop集群环境配置及安装配置（详细过程包含安装包）
2301_79985178: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Hadoop集群环境配置及安装配置（详细过程包含安装包）
cnodifference: 兄弟解决了么我也有这个问题
Hadoop集群环境配置及安装配置（详细过程包含安装包）
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Hadoop集群环境配置及安装配置（详细过程包含安装包）
Avatar*: yum -y install lrzsz
Hadoop集群环境配置及安装配置（详细过程包含安装包）
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

吗喽也是命 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。