机器学习-Python实践Day3（特征工程--数据预处理2）

最新推荐文章于 2022-12-20 21:38:39 发布

撸码小白

最新推荐文章于 2022-12-20 21:38:39 发布

阅读量541

点赞数

分类专栏：机器学习文章标签：机器学习数据预处理标签编码独热编码 Python机器学习

本文链接：https://blog.csdn.net/qq_19950851/article/details/86479083

版权

本文详细探讨了机器学习中数据预处理的两个关键步骤：处理缺失数据和编码非数值特征。针对缺失值，采用平均值进行填充；对于非数值类型如城市名称和购买标签，通过标签编码和独热编码转换为模型可接受的格式。

摘要由CSDN通过智能技术生成

1、数据预处理2（自定义数据）

1、数据预处理2
- 1.1、处理缺失数据
- 1.2、标签编码与独热编码

1、数据预处理2

# 引入数据集
import pandas as pd
df=pd.read_excel('data.xlsx')
df

可以看到数据中存在NaN值。
在这里插入图片描述
划分特征和标签集

X=df.iloc[:,0:3].values
Y=df.iloc[:,3].values

1.1、处理缺失数据

对数据中可能出现的存在缺失值NaN的数据，我们可以通过取平均值（strategy=mean）的方式填充数据。

# 填充缺失数据
from sklearn.preprocessing import Imputer
imputer=Imputer(missing_values='NaN',strategy='mean',axis=0)
X[:,1:3]=imputer.fit_transform(X[:,1:3])
X

在这里插入图片描述

1.2、标签编码与独热编码

有些数据不是数值类型的，而有可能是字符类型或编

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

撸码小白

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

机器学习 | 特征工程（数据预处理、特征抽取）

06-27

1万+

所谓特征工程即模型搭建之前进行的数据预处理和特征提取。有时人们常常好高骛远，数据都没处理好就开始折腾各种算法，从第一开始就有问题，那岂不是还没开始就已经结束了。所以说啊，不积跬步无以至千里，生活中的每个细节，都可能创造人生的辉煌。 特征工程 什么是特征工程 特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的预测准确性。直接决定了模型预测的结果好坏。简单的说，就是一个特征提取和数据预处理的过程。而机器学习中想要做好特征处理，一定离不开一个工具，那就是skl

数据预处理（二）：缺失值处理

weixin_42189966的博客

06-16

828

缺失值在数据挖掘工作中，数据往往会出现有部分缺失值，因此缺失值填补属于数据处理的重要部分。一、使用skearn进行缺失值填补函数介绍： sklearn.impute.SimpleImputer(missing_values=nan,strategy='mean',fill_value = None,copy=True) 参数含义与输入 missing_values 缺失值的格式，默认为np.nan stratege 填补缺失值的策略，默认为均值；mean代表均值，median代表

参与评论您还未登录，请先登录后发表或查看评论

随机森林【机器学习笔记简摘】

YPS的博客

10-21

1383

在机器学习中，随机森林是一个包含多个决策树的分类器，是一种集合算法，并且其输出的类别是由个别树输出的类别的众数而定。随机森林 = Bagging + 决策树 Bagging集成原理 bagging集成过程 1.采样：从所有样本里面，采样一部分 2.学习：训练弱学习器 3.集成：使用平权投票例子：把下面的圈和方块进行分类实现过程： 1.采样不同数据集 2.训练分类器 3.平权投票，获取最终结果 4.主要实现过程小结随机森林构造过程例如, 如果你训练了5个树, 其中有4个树的结果是True,

scikit-learn机器学习--特征处理

刘宏宇的博客

09-12

2296

【机器学习入门】(11) 特征工程：特征预处理，归一化、标准化、处理缺失值

博观而约取，厚积而薄发

11-20

2253

各位同学好，今天我和大家分享一下python机器学习中的特征与处理。内容有：（1）归一化、（2）标准化、（3）处理缺失值那我们开始吧。特征预处理采用的是特定的统计方法（数学方法）将数据转化为算法要求的数字 1. 数值型数据归一化，将原始数据变换到[0,1]之间标准化，数据转化到均值为0，方差为1的范围内缺失值，缺失值处理成均值、中位数等 2. 类别型数据降维，多指标转化为少数几个综合指标，去掉关联性不大的指标 PCA，降维的一种 3. 时间类别时间的切分 1...

机器学习-Python实践Day3（特征工程--数据预处理）

qq_19950851的博客

01-14

411

1、数据预处理（Pima Indians 印第安人医疗数据）1、数据预处理1.1、调整数据尺度1.2、正态化数据1.3、标准化数据1.4、二值化数据 1、数据预处理 在导入数据、理解数据之后就需要对数据做进一步的处理，这一步的处理称为数据预处理。 数据预处理大致分为3个步骤，我们需要熟知的是数据的转换步骤：数据导入数据转换数据输出其中数据转换有以下几种方法：调整数据尺度（Resc...

机器学习-Python实践Day4（特征工程--数据特征选定）

qq_19950851的博客

01-16

404

1、数据特征选定（Pima Indians 印第安人医疗数据）1、特征选择1.1、单变量特征选定1.2、递归特征消除1.3、主要成分分析1.4、特征的重要性 1、特征选择 特征工程： 特征工程包含了数据预处理、特征选择、数据降维。前面介绍了数据预处理，这次我们着手对数据进行特征选择，在原始数据中提取最合适的特征用于算法和模型。 特征工程的作用：在此套用书上的话,“数据和特征决定了机器学习的上限，而...

机器学习-Sklearn（第三版）Day3 数据预处理（数据标准化&归一化&正则化）

热门推荐

小强博客

09-20

10万+

预处理数预处理数据的方法总结（使用sklearn-preprocessing）当我们拿到一批原始的数据首先要明确有多少特征，哪些是连续的，哪些是类别的。检查有没有缺失值，对确实的特征选择恰当方式进行弥补，使数据完整。对连续的数值型特征进行标准化，使得均值为0，方差为1。对类别型的特征进行one-hot编码。将需要转换成类别型数据的连续型数据进行二值化。为防止过拟合或...

金融量化— 简单均值回归策略（Mean Reverting Strategy）

帅泽泽的博客

11-07

1万+

均值回归理论均值回归策略应用了股市投资中经典的高抛低吸思想，该类型策略一般在震荡市中表现优异；但是在单边趋势行情中一般表现糟糕，往往会大幅跑输市场；均值回归：“跌下去的迟早要涨上来” , 选股用，不适合做择时，因为不知道什么时候是偏离最低均值回归的理论基于以下观测：价格的波动一般会以它的均线为中心。也就是说，当标的价格由于波动而偏离移动均线时，它将调整并重新归于均线。定义偏离程度：（MA-P）/MA —MA均线，P价格均值回归策略：在每个调仓日进行计算股票池中所有股票的N

缺失值处理：SimpleImputer（简单易懂 + 超详细）

向日葵的专属太阳

04-15

3万+

文章目录SimpleImputer参数详解常用方法fit(X)transform(X)fit_transform(X)get_params()inverse_transform(X)自定义值填补 SimpleImputer参数详解 class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy=‘mean’, fill_value=None, verbose=0, copy=True, add_indicator=False) 参数含

量化投资 — 简单均值回归策略（Mean Reverting Strategy）

王昊的博客

04-14

5358

均值回归_Mean Reverting Strategy 0. 引库 %matplotlib inline import matplotlib.pyplot as plt import seaborn plt.style.use('seaborn') import matplotlib as mpl mpl.rcParams['font.family'] = 'serif' import warn...

数据预处理之缺失值处理（sklearn、pandas）

weixin_60200880的博客

09-22

909

数据预处理之缺失值处理（sklearn、pandas）

Pandas库——DataFrame入门

Qiuker_jl的博客

01-20

1万+

文章目录一.简介二.创建三.操作1.查看一.简介 DataFrame是一个二维的表格型结构，可以视为Series的容器，规定每一列所有元素的数据类型必须相同，不同列的元素数据类型可以不同 DataFrame有行索引和列索引，分别可以用index和columns进行查看库的导入： import numpy as np import pandas as pd 二.创建利用DataFrame函数进行创建参数可以为： ①python字典型 dict={ "时间":pd.date_range("

机器学习--十分钟上手sklearn：特征提取，常用模型，交叉验证

海阔天空

05-01

4308

本文转自十分钟上手sklearn：特征提取，常用模型，交叉验证写得简洁易懂，机器学习的几个常用算法都做了说明，值得收藏。这一篇虽然叫做：十分钟上手sklearn：特征提取，常用模型，但是写着写着我就想把每一个模型都详细说一下，所以也可以看作是机器学习算法概述了。上一篇我们讲解了如何安装sklearn,导入自带数据集，创建数据，对数据进行预处理，通过上一篇的讲解，相信大家能够感受到sk...

Python pandas与scikit-learn实现线性回归温度预测教程

本示例代码展示了如何使用Python的数据处理库pandas和机器学习库scikit-learn构建一个线性回归模型，以预测未来的温度变化。通过读取CSV文件中的历史温度数据，提取日期（天、月、年）作为特征，并将最高温度和最低...