- Data Cleansing
空值
不一致性
冗余数据
数据类型
缺失数据:
离群点分析:ROF,A点到临近点的值比上B点到临近点距离的值
重复数据:人口信息判断是否相同用滑动窗口 - Data Transformation
Now we have an eror free dataset
Stil needs to be standardized
Type Conversion:编码方式(Normally数据)
Normalization:标准化,
Sampling(采样:
不平衡数据
Over-Sampling:几种数据数量不均衡-->插值法生成
Bounding Sampling:边缘点, - Data Description
r > < 正负相关, r = 0 非线性相关
卡方 chi-square(X的平方)
数据可视化
平行坐标(高位数据):
可视化工具:软件(CiteSpace:文献,,Gephi:各个元素之间的关系) - Feature Selection
两个重要的算法:
熵:
Information Gain :信息增益:越大越好
属性选择:树,增加或者减少,集合 - Feature Extraction
主成分分析:坐标变换,
拉格朗日数乘法解决有约束的最优问题
上面是对没有标签的数据进行降维,对有标签的数据进行分析用LDA
例子
DataSet
PCA:
LDA:
使用LDA对多分类问题:
LDA从高维降到低维
均值不要相等