机器学习机基础总结(一)数据清洗

数据清洗

Pandas Fuzzy-Levenshtein distence

Fuzzywuzzy提供了语言的模糊查询或者替换等

PCA主成分分析

PCA主成分分析算法(Principal Components Analysis)是一种最常用的降维算法。能够以较低的信息损失(以样本间分布方差衡量)减少特征数量。
PCA算法可以帮助分析样本中分布差异最大的成分(主成分),有助于数据可视化(降低到2维或3维后可以用散点图可视化),有时候还可以起到降低样本中的噪声的作用(丢失的信息有部分是噪声)。

PCA分析的解释

这里以最大方差的理论对PCA算法进行分析。
从图像上来看 对于一个二维的特征值矩阵。每个点表示一个样本点。
在这里插入图片描述
我们可以设定一条直线表示我们所指定的主要方向向量。
在这里插入图片描述
对于两条直线,哪条更能表示特征的主要方向呢?我们做将每个点做一个垂直线得到在直线上的投影。在直线上投影的特征点中之间的方差越大表示这个方向为主要方向。

从数学上看如何得到最大的方向向量
在这里插入图片描述
在这里插入图片描述

数据清洗与数据处理

清除噪声,有几种方法,人工,利用模型处理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值