《Machine Learning for OpenCV》学习笔记：数据预处理之处理缺失的数据

最新推荐文章于 2021-12-28 14:32:40 发布

此生小会

最新推荐文章于 2021-12-28 14:32:40 发布

阅读量345

点赞数

分类专栏： AI 文章标签： preprocessing data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cckavin/article/details/88811964

版权

本文是《Machine Learning for OpenCV》的学习笔记，主要探讨了数据预处理中的缺失值处理。介绍如何使用scikit-learn的SimpleImputer类，通过mean、median、most_frequent和constant策略填充缺失值，并进行了验证。

摘要由CSDN通过智能技术生成

一.缺失数据处理

1.1填充缺失值

大多数的机器学习算法无法处理非数值(not a number)，在python中非数值用nan表示。所以我们就需要把所有的nan值替换为某个合适的填充值。这个操作称为填充缺失值。

1.2scikit-learn实现

在scikit-learn的sklearn.impute.SimpleImputer类中提供了三种不同的方法(策略)来填充缺失值。

(1)mean: 将所有的nan值填充为矩阵在指定坐标轴上元素的平均值(默认情况，axis=0)。

(2)median: 将所有的nan值填充为矩阵在指定坐标轴上元素的中值(默认情况，axis=0)。

(3)most_frequent: 将所有的nan值填充为矩阵在指定坐标轴上00(出现频率最高的值(默认情况，axis=0)

(4)constant: 将所有的nan值使用常量填充。

1.3验证

# -*- coding:utf-8 -*-
import numpy as np
from numpy import nan
from sklearn.impute import SimpleImputer

X = np.array(
	[[nan, 0, -3],
	 [2, 9, -8],
	 [1, nan, 1],
	 [5, 2, 4],
	 [7, 6, -3]]
)

# 使用平均值（mean）填充
imp_mean = SimpleImputer(missing_values=nan, strategy='mean')
X_mean =

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

此生小会 CSDN认证博客专家 CSDN认证企业博客

码龄10年

143: 原创

4万+: 周排名

91万+: 总排名

77万+: 访问

: 等级

5362: 积分

89: 粉丝

297: 获赞

117: 评论

828: 收藏

私信

关注

热门文章

分类专栏

leetcode
Python 57篇
MongoDB 5篇
Redis 2篇
Django 7篇
Flask 19篇
Data Structure And Algorithm 1篇
DataBase 4篇
爬虫 3篇
Tool 7篇
Linux 9篇
Git 6篇
Docker 11篇
Nginx 3篇
Frontend 1篇
Tornado 1篇
AI 11篇

最新评论

webdriver.Chrome()报错：selenium.common.exceptions.WebDriverException: Message: 'chromedriver' ...
Hdr2394: 大家能给我看一下我这个是什么原因呀，我已经整了好久了
webdriver.Chrome()报错：selenium.common.exceptions.WebDriverException: Message: 'chromedriver' ...
Hdr2394: Traceback (most recent call last): File "D:/py/python study/spider_study/spider_尚硅谷/078_selenium_study.py", line 5, in <module> browser=webdriver.Chrome(path) File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\chrome\webdriver.py", line 76, in __init__ RemoteWebDriver.__init__( File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 157, in __init__ self.start_session(capabilities, browser_profile) File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 252, in start_session response = self.execute(Command.NEW_SESSION, parameters) File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 319, in execute response = self.command_executor.execute(driver_command, params) File "D:\py\python study\spider_study\venv\lib\site-packages\selenium\webdriver\remote\remote_connection.py", li
Node--Ubuntu下源码编译安装Node.js（时间比较长）
水煮花生-: 我从上班开始make，然后下班正好make完，这下合理摸鱼了
Python--遍历列表时删除元素的正确做法
qq_41745159: 思路一下清晰了，感谢
django.db.utils.OperationalError: (1366, "Incorrect string value: '\\xF0\\x9F\\x90\\x8D \\xC2...' )
不会打代码的计算机学习人: 没有配置文件可以怎没更改

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。