数据预处理

1.数据清洗
    a.缺失数据可能的原因:设备故障,隐私数据,不适用
    b.如何处理缺失数据:忽视,重填,自动重填
    c.离群点(outlier):与整体的差异较大的点
    d.差异点(anomaly):与其他点相比有问题的点

2.异常值与重复数据检测
    a.离群点的定位:相对的距离 比值 LOF值越大
    b.重复数据

3.类型转换与采样
    a.类型:连续性、离散型、ordinal、nominal、string
    b.采样:解决时间复杂度
    c.1)不平衡数据:
           G-mean=(ACC正*ACC负)的1/2次方
           F-measure=(2*Precision*Recall)/(Precision+Recall)
      2)向上取样、边界取样
      3)SMOTE(Synthetic Minority Oversampling Technique)即合成少数类过采样技术:对少数d.类样本通过插值进行上采样

4.数据描述与可视化
    a.数据标准化
        有上下界:v'=[(v-min)/(max-min)]*(new-max - new-min)+new-min
        无明确上下界:v'=(v-μ)/σ
    b.数据描述
        平均值、中位数、mode(频率)、variance(离散程度)
        r(a,b)=0 ----a和b呈非线性相关
    c.数据可视化
        高纬度函数:box plots、 parallel coordinates
        软件:citespace、gephi

5.特征选择
    a.entropy(熵)  information gain值越大越好

6.主成分分析

7.线性判别分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值