文章目录
数据清洗
为什么数据需要进行预处理呢:Real data are notoriously dirty!
Incomplete
Occupancy = “ ”
Noisy
Salary = “-100”
Inconsistent
Age = “42” vs. Birthday = “01/09/1985”
Redundant
Too much data or too many features for analytical analysis
Others
Data types
Imbalanced datasets
数据缺失的原因有哪些?
- Data are not always available.
One or more attributes of a sample may have empty values.
Many data mining algorithms cannot handle missing values directly.
May cause significant troubles. - Possible Reasons
Equipment malfunction
Data not provided
Not Applicable (N/A) - Different Types
Missing completely at random
Missing conditionally at random
Not missing at random
处理缺失数据的办法有哪些?
- Ignore
Remove samples/attributes with missing values 删除缺少值的示例/属性
The easiest and most straightforward way 最简单,最直接的方法
Work well with low missing rates 效果好,缺失率低 - Fill in the missing values manually
Recollect the data 重新收集数据
Domain knowledge 数据所在的环境
Tedious/Infeasible 乏味/不可行 - Fill in the missing values automatically
A global constant 全局常量
The mean or median 平均值或中位数
Most probable values 最可能的值
Anomaly vs. Outlier?
异常值是指数据出现异常,而离群点是指数据和其他部分格格不入。
举个例子,姚明很高,但是他没有患病,所以只是离群点,而有些很高的人是因为有病,这就是异常值。
异常值与重复数据检测
离群点:相对距离值越大,为离群点的可能性越大
冗余、重复数据:使用滑动窗口,但对距离远的点无法比较,需要将相似的放在一起
类型转换与采样
类型转换:
采样:不平衡数据 G-means F-measure、向上采样、边界采样
Precision代表的是在所有预测为正的例子中,实际上真的为正的比例。
Recall代表的是在所有实际为正的例子中,预测对了的比例。
其他指标见评价指标大全
数据描述与可视化
数据标准化
有上下限数据:可映射到[0,1]
无上下限数据:仅计算对均值的偏移
数据描述
均值、中位数、众数、方差
Mean、Median、Mode、Variance
协方差:
correlation coefficient
(R = 0,表示线性不相关,而不是不相关)
如果下象棋和喜欢科幻没有关系,则是红颜色的值,则是1:4,卡方测试可以算出来一个值,查表可得是具有相关性的。
特征选择
Exhaustive 穷举法
Branch and Bound 分支定界法
Sequential Forward Selection 顺序正向选择
Simulated Annealing 模拟退火
Tabu Search 禁忌搜索
等等
Principal Component Analysis 主成分分析
顾名思义,就是找到一组数据的主成分,找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。即降维。目标:提取最有价值的信息(基于方差)
Linear Discriminant Analysis 线性判别分析
LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。LDA的基本思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点中心尽可能远离。更简单的概括为一句话,就是“投影后类内方差最小,类间方差最大”。
LDA:针对有标签数据
PCA:针对无标签数据
按某方向投影分开