数据认知与预处理(数据挖掘)

数据的中心趋势度量:

        平均值(受极端影响,可通过计算截断均值减少极端值的影响):

        \bar{x} =(x _{1}+x_{2}+x_{3}+x_{4}\cdots x_{n})\setminus \frac{1}{n}

        中位数:

median = L_{1}+\left ( \frac{N\setminus 2-\left ( \sum frep \right )_{l}}{freq_{median}} \right )width

        众数:

        一组数据中出现数据最多的值叫众数,有时众数不止一个,有一个、两个或三个的数据集分别称为单峰、双峰和三峰数据集,有两个及以上众数的数据集统称为多峰数据集

        中列数(受极端值影响):

        最大值和最小值的平均值。

数据的离散趋势度量:

        极差与分位数(分位数常用四分位数、十分位数和百分位数):

        极差又称全距,是指一组数据集观测值中的最大值和最小值之差。

        分位数是指将所有过程中按递增顺序排列,如何将数据划分为大小基本相同的连续集合每隔一段距离取数据分布上的一个数据点,这个数据点就叫做数据集的分位数。假设一个将数据集划分为k个部分,那么就有k-1个数据点。

        四分位极差:

           IQR=Q_{3}-Q_{1}

        五数概括与盒图:

        五数:中位数、四分位数的Q_{1}Q_{3}、最大和最小观测值。

        盒长=IQR

 

        方差和标准差:

        设属性X有N个观测值x_{1},x_{2},x_{3},\cdots ,x_{N},其方差为:

        \sigma ^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\bar{x})^{2}=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\bar{x}^{2}

        \bar{x}是观测值的均值,标准差为方差\sigma ^{2}的算术平方根。

对象相似性计算方法:

        欧式距离(两点直线距离)

 C = \sqrt{({x_{1}}-{x_{2}})^{2}+({y_{1}}-{y_{2}})^{2}}

        曼哈顿距离(实际距离)

C = \left |x _{1} -x_{2}\right |+\left |y _{1} -y_{2}\right |

缺失值常见处理方法:

        ①直接删除缺失值。

        ②人工填写。

        ③使用全局常量填充缺失值。

        ④使用属性的中心趋势度量值填充缺失值。

        ⑤使用与给定元组属于同一类的所有样本的属性均值和中位数填充。

        ⑥使用最有可能的值填充。

识别离群点和平滑噪声数据:

        ①分箱法

        等深分箱:不同的箱里有相同个数的数据。

        等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间作为一个分箱。

        等频分箱:把观测值按照从小到大的顺序排列根据观测值的个数等分为k部分,每部分当作一个分箱。

        基于k均值聚类的分箱:使用k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性,即在第一个分箱中的所有的观测值都要小于第二个分箱中的观测值,第二个分箱中的所有观察值都要小于第三个分箱中的观测值等。

        使用分箱法后,可以使用光滑技术对离群点和噪点进行光滑(用箱平均值光滑、用箱中位数光滑、用箱边界光滑)

        ②回归

        一元线性回归分析和多元线性回归分析。

数据规范化:

        最小-最大规范化、Z-score规范化和按小数规范化

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
数据挖掘是从大量数据中提取有用信息的过程,而数据预处理数据挖掘的重要步骤之一,它包括数据清洗、数据集成、数据变换和数据规约等操作。Python是一种常用的编程语言,也有很多用于数据挖掘数据预处理的库和工具。 在Python中,有一些常用的库可以用于数据挖掘数据预处理,例如: 1. NumPy:用于进行数值计算和数组操作,可以处理大规模的数据集。 2. Pandas:提供了高效的数据结构和数据分析工具,可以进行数据清洗、转换和整合等操作。 3. Scikit-learn:是一个机器学习库,提供了各种常用的数据挖掘算法和工具,包括数据预处理方法。 4. Matplotlib和Seaborn:用于数据可视化,可以绘制各种图表和图形,帮助理解和分析数据。 在进行数据预处理时,常见的操作包括: 1. 数据清洗:处理缺失值、异常值和重复值等问题。 2. 数据集成:将多个数据源合并为一个整体,解决数据冗余和不一致性问题。 3. 数据变换:对数据进行转换,例如标准化、归一化、离散化等。 4. 数据规约:降低数据维度,减少数据存储和计算的复杂性。 以下是一些常用的Python代码示例,用于数据预处理: 1. 使用Pandas读取和处理数据: ```python import pandas as pd # 读取CSV文件 data = pd.read_csv('data.csv') # 处理缺失值,使用均值填充 data.fillna(data.mean(), inplace=True) # 处理重复值 data.drop_duplicates(inplace=True) # 数据转换,标准化 data['feature'] = (data['feature'] - data['feature'].mean()) / data['feature'].std() # 数据规约,PCA降维 from sklearn.decomposition import PCA pca = PCA(n_components=2) data_reduced = pca.fit_transform(data) ``` 2. 使用Scikit-learn进行数据预处理: ```python from sklearn.preprocessing import Imputer, StandardScaler from sklearn.decomposition import PCA # 处理缺失值,使用均值填充 imputer = Imputer(strategy='mean') data_imputed = imputer.fit_transform(data) # 数据转换,标准化 scaler = StandardScaler() data_scaled = scaler.fit_transform(data_imputed) # 数据规约,PCA降维 pca = PCA(n_components=2) data_reduced = pca.fit_transform(data_scaled) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吗喽也是命

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值