Python机器学习算法基础第三天

文章介绍了数据预处理中的关键步骤,包括使用MinMaScaler进行归一化,将数据映射到[0,1]范围,适用于数据特征同等重要的情况;使用StandardScaler进行标准化,确保数据均值为0,方差为1,适合大数据场景。此外,还讨论了如何处理缺失值,可以选择删除或用平均值、中位数填充。文章提供了sklearn库的相关API示例代码。
摘要由CSDN通过智能技术生成

数据的特征预处理:
通过特定的统计方法(数学方法),将数据转换成算法要求的数据

数值型的数据:
标准缩放:

  • 归一化:特点:通过对原始数据进行变换把数据映射到默认为[0, 1]之间。数据特征同等重要的时候,进行归一化,使得一个特征对最终结果不会造成太大影响。注意在特定场景下最大值最小值是变化的,另外最大值最小值很容易受到异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景
  • 标准化:特点:通过对原始数据进行转变把数据变换到均值为0,方差为1范围内。如果出现异常点,由于具有一定量的数据,少量异常点对于平均值的影响不大,只会让方差越来越大。处理后每列所有数据都聚集在均值0,标准差1附近。在样本足够多情况下比较稳定,适合大数据
  • 缺失值:删除(如果某列或某行缺失值达到一定量,则放弃整列或整行);插补(可以通过缺失值每行或每列的平均值、中位数来填充)

sklearn特征处理API:
sklearn.preprocessing
归一化API:
sklearn.preprecessing.MinMaxScaler

from sklearn.preprocessing import MinMaxScaler
def mm():
	"""
	归一化处理
	"""

	mm = MinMaxScaler()
	data = mm.fit_transform()
	print(data)
	return None

标准化API:
sklearn.preprocessing.StandardScaler

from sklearn.preprocessing import StandardScaler
def stand():
	"""
	标准化处理
	"""

	std = StandardScaler()
	data = std.fit_transform()
	print(data)
	return None

缺失值:

import numpy as np
def im():
	"""
	缺失值处理
	"""
	
	im = Imputer(missing_values = "NaN", strategy = "mean", axis = 0) # 0是列,1是行
	data = im.fit_transform()
	print(data)
	return None
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值