机器学习系列--2、机器学习数据清理

最新推荐文章于 2021-10-07 14:37:37 发布

tankpanv

最新推荐文章于 2021-10-07 14:37:37 发布

阅读量251

点赞数

分类专栏：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tankpanv/article/details/95929162

版权

机器学习同时被 2 个专栏收录

11 篇文章 1 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

1、数据预处理

主要包括

•特征提取

•处理缺失数据

•数据定标

•数据转换: One-Hot encoding, One/Two/MultiGram, Bag of words, 取对数

•1、特征提取：

a、以基于图像进行行人检测为例, 需要提取图像的梯度直方图
b、以自然语言处理为例, 需要提取文字的n-gram，其实就是将文字转换成数字形式，然后通过计算句子各个单词同时出现的概率（通过历史训练的数据得到各个单词间两两同时存在的概率）

使用条件概率公式p(S)=p(w1w2⋯wn)=p(w1)p(w2∣w1)⋯p(wn∣wn−1wn−2)计算概率值，具体看下面链接内容

如下博客对n-gram描述得比较细致：https://blog.csdn.net/songbinxu/article/details/80209197

2、数据预处理之处理缺失数据

•以Titanic数据集为例, 部分乘客的年龄, 80%乘客的仓位有缺失

•处理方式:

•1. 使用均值或者中间值(median)代替数值类型(年龄)的缺失数据

•2. 使用众数(mode)代替分类数据(性别)的缺失数据

•3. 使用聚类的方式, 找到相似的数据点, 使用这些相似数据点的均值等替代缺失数据

•4. 如果某一个特征的数据丢失率太高, 直接丢弃这个特征的数据也许更好

3、数据预处理之数据定标

1）

•Normalization/Min-Max-Scaler (归一化)

•

•Standardization (标准化)

2）也可以使用降维处理，或者通过坐标轴向量转换

经过转换之后就可以比较清晰直观观测到数据间的区别

4、数据转换: One-Hot encoding

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习系列--2、机器学习数据清理

1、数据预处理主要包括•特征提取•处理缺失数据•数据定标•数据转换: One-Hot encoding, One/Two/MultiGram, Bag of words, 取对数 •1、特征提取：a、以基于图像进行行人检测为例, 需要提取图像的梯度直方图 b、以自然语言处理为例, 需要提取文字的n-gram，其实就是将文字转换成数字形式，然后通过计算句子各个单词同...
复制链接

扫一扫

专栏目录

tankpanv

CSDN认证博客专家 CSDN认证企业博客

码龄14年

227: 原创

2万+: 周排名

2万+: 总排名

26万+: 访问

: 等级

3731: 积分

255: 粉丝

85: 获赞

19: 评论

367: 收藏

私信

关注

热门文章

分类专栏

go 13篇
react 17篇
k8s 16篇
hive
C++ 7篇
成长之旅 5篇
Python 17篇
机器学习 11篇
数据挖掘 5篇
leetcode 133篇
计算机基础 23篇
mysql 12篇

最新评论

Istio入门体验系列——基于Istio的灰度发布实践
Lion Long: 不错的文章，受益匪浅，文章内容丰富，条理清晰，值得一波关注！
buildkit + nerdclt 构建k8s镜像
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/616708830。
grafana 配置详解
天骄书虫: 有汉化就好了
ubantu 安装显卡
tankpanv: 后面是安装独显的。如果没有使用核显需求的话也可以不操作
ubantu 安装显卡
weixin_45036776: 按照第一步修改grub后就可以正常启动了，还需要后面的操作吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。