数据预处理

  1. Data Cleansing
    空值
    不一致性
    冗余数据
    数据类型
    缺失数据: 
    离群点分析:ROF,A点到临近点的值比上B点到临近点距离的值
    重复数据:人口信息判断是否相同用滑动窗口   
  2. Data Transformation
    Now we have an eror free dataset
    Stil needs to be standardized
    Type Conversion:编码方式(Normally数据)
    Normalization:标准化,
    Sampling(采样:
    不平衡数据

    Over-Sampling:几种数据数量不均衡-->插值法生成
    Bounding Sampling:边缘点,
  3. Data Description
    r_{A,B}=\frac{\sum (A-\bar{A})(B-\bar{B})}{(n-1)\sigma _{A}\sigma _{B}}=\frac{\sum (AB)-n\bar{A}\bar{B}}{(n-1)\sigma _{A}\sigma _{B}}

    r > <  正负相关, r = 0 非线性相关

    卡方 chi-square(X的平方)
    数据可视化
          平行坐标(高位数据):
          可视化工具:软件(CiteSpace:文献,,Gephi:各个元素之间的关系)
  4. Feature Selection
    两个重要的算法:
    熵:

    Information Gain :信息增益:越大越好

    属性选择:树,增加或者减少,集合
  5. Feature Extraction
    主成分分析:坐标变换,

    拉格朗日数乘法解决有约束的最优问题
     

    上面是对没有标签的数据进行降维,对有标签的数据进行分析用LDA






    例子
    DataSet


    PCA:


    LDA:


    使用LDA对多分类问题:


    LDA从高维降到低维

    均值不要相等


     

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值