清华大学数据挖掘笔记(二)

数据预处理至关重要,包括异常值处理、缺失值填充、类型转换和采样。PCA与LDA是两种常用的降维技术,前者用于无标签数据,后者用于有标签数据,旨在最大化类间差异和最小化类内差异。特征选择和数据可视化则帮助我们理解并简化数据。
摘要由CSDN通过智能技术生成


数据清洗

为什么数据需要进行预处理呢:Real data are notoriously dirty!

Incomplete
Occupancy = “ ”

Noisy
Salary = “-100”

Inconsistent
Age = “42” vs. Birthday = “01/09/1985”

Redundant
Too much data or too many features for analytical analysis

Others
Data types
Imbalanced datasets


数据缺失的原因有哪些?

  • Data are not always available.
    One or more attributes of a sample may have empty values.
    Many data mining algorithms cannot handle missing values directly.
    May cause significant troubles.
  • Possible Reasons
    Equipment malfunction
    Data not provided
    Not Applicable (N/A)
  • Different Types
    Missing completely at random
    Missing conditionally at random
    Not missing at random

处理缺失数据的办法有哪些?

  • Ignore
    Remove samples/attributes with missing values 删除缺少值的示例/属性
    The easiest and most straightforward way 最简单,最直接的方法
    Work well with low missing rates 效果好,缺失率低
  • Fill in the missing values manually
    Recollect the data 重新收集数据
    Domain knowledge 数据所在的环境
    Tedious/Infeasible 乏味/不可行
  • Fill in the missing values automatically
    A global constant 全局常量
    The mean or median 平均值或中位数
    Most probable values 最可能的值

Anomaly vs. Outlier?

异常值是指数据出现异常,而离群点是指数据和其他部分格格不入。
举个例子,姚明很高,但是他没有患病,所以只是离群点,而有些很高的人是因为有病,这就是异常值。

异常值与重复数据检测

离群点:相对距离值越大,为离群点的可能性越大
冗余、重复数据:使用滑动窗口,但对距离远的点无法比较,需要将相似的放在一起

类型转换与采样

在这里插入图片描述


类型转换:
采样:不平衡数据 G-means F-measure、向上采样、边界采样
在这里插入图片描述
Precision代表的是在所有预测为正的例子中,实际上真的为正的比例。
Recall代表的是在所有实际为正的例子中,预测对了的比例。

其他指标见评价指标大全


数据描述与可视化

数据标准化

有上下限数据:可映射到[0,1]
在这里插入图片描述

无上下限数据:仅计算对均值的偏移
在这里插入图片描述

数据描述
均值、中位数、众数、方差
Mean、Median、Mode、Variance

协方差:
correlation coefficient
(R = 0,表示线性不相关,而不是不相关)
在这里插入图片描述

如果下象棋和喜欢科幻没有关系,则是红颜色的值,则是1:4,卡方测试可以算出来一个值,查表可得是具有相关性的。
在这里插入图片描述

特征选择

Exhaustive 穷举法
Branch and Bound 分支定界法
Sequential Forward Selection 顺序正向选择
Simulated Annealing 模拟退火
Tabu Search 禁忌搜索
等等

Principal Component Analysis 主成分分析

顾名思义,就是找到一组数据的主成分,找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。即降维。目标:提取最有价值的信息(基于方差)

方向:希望投影后的投影值尽可能分散
方差:![在这里插入图片描述](https://img-blog.csdnimg.cn/e8ab1381dd0d4a8fa5f0c60bd0096fed.png)

在这里插入图片描述

Linear Discriminant Analysis 线性判别分析

LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。LDA的基本思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点中心尽可能远离。更简单的概括为一句话,就是“投影后类内方差最小,类间方差最大”。
在这里插入图片描述
LDA:针对有标签数据
PCA:针对无标签数据
按某方向投影分开

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值