机器学习100天-数据预处理 [代码实现细节分析]

最新推荐文章于 2023-04-08 23:41:24 发布

STILLxjy

最新推荐文章于 2023-04-08 23:41:24 发布

阅读量1.1k

点赞数 1

分类专栏： ——机器学习—— 机器学习100天

本文链接：https://blog.csdn.net/STILLxjy/article/details/86496740

版权

原始数据： 在Data.csv文件中我们有如下数据：
在这里插入图片描述
统计了10个人的基本信息：国籍，年龄，工资以及他们对于某件商品是否购买的情况。

代码实现细节分析：
（1）导入基本python包

import numpy as np
import pandas as pd

（2）导入数据，读取.csv文件中的数据

dataset = pd.read_csv('Data.csv')  #读取指定.csv文件，返回DataFrame
X = dataset.iloc[ : , : -1].values  #获取指定索引的行列数据 iloc = “index location”
Y = dataset.iloc[ : , 3].values

结果显示：表格中为空的数据，在X中使用nan表示
在这里插入图片描述
（3）处理丢失数据，将1，2列中 nan 的数据使用该列中所有已知数的平均值代替

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

STILLxjy

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

算法实战应用案例精讲-【数据分析】基于R语言的时序分析（附R语言代码）

qq_36130719的博客

01-11

1207

时间序列的异常检测问题通常表示为相对于某些标准信号或常见信号的离群点。虽然有很多的异常类型，但是我们只关注业务角度中最重要的类型，比如意外的峰值、下降、趋势变化以及等级转换（level shifts）。革新性异常：innovational outlier (IO)，造成离群点干扰不仅作用于X(T)，而且影响T时刻以后序列的所有观察值。附加性异常：additive outlier (AO)，造成这种离群点的干扰，只影响该干扰发生的那一个时刻T上的序列值，而不影响该时刻以后的序列值。

逻辑回归三部曲——逻辑回归项目实战(信贷数据+Python代码实现)

阿黎逸阳的博客

05-05

5345

用Python实现逻辑回归建模

参与评论您还未登录，请先登录后发表或查看评论

数据预处理

12-01

数据挖掘概念与技术数据预处理，很好的课程讲义

机器学习1/100天-数据预处理

zombee0的博客

08-16

575

Day1 Data PreProcessing github: 100-Days-Of-ML-Code 1.导入两个常用的python库，numpy, pandas import numpy as np import pandas as pd 2.读取数据文件 dataset = pd.read_csv("Data.csv") X = dataset.iloc[:,:-1]....

机器学习之数据预处理

郑思旭的博客

07-16

250

数据预处理方法：均值移除范围缩放二值化归一化独热编码标签编码直接调用API接口进行处理线性回归输入输出 0.5 5.0 0.6 5.5 0.8 6.0 1.1 6.8 1.4 7.0 ... y = f(x) 预测函数：y = w0+w1x x: 输入 y: 输出 w0和w1: 模型参数所谓模型训练，就是根据已知的x和y，...

数据预处理整体代码实现

weixin_45896475的博客

03-19

1598

数据预处理整体代码实现 数据预处理的逻辑在集群在idea都能执行,下面是我在idea的执行代码代码执行的前提(参数): app埋点日志原始文件输入路径 geohash地理位置字典输入路径当日的idmp映射字典所在路径预处理结果输出路径 spark运行模式的master 注意如果参数文件在idea直接输入路径,如果在本地路径前加上file://,如果在hdfs就需要加上hdfs://主机...

KDD CUP99数据预处理三个步骤

0rambot的博客

07-11

1万+

入侵检测实验一般使用的是KDD CUP99中的kddcup.data_10percent数据集。由于数据集中包含有符号型的数据属性，不适合直接处理，所以需要进行预处理，数据集的预处理一般由三个步骤: 1.将字符型特征转换成数值型特征 2.数值标准化 3.数值归一化关于KDD CUP99的数据预处理看了两个博客，两个博客合在一起比较完整，所以这里转载过来，记录下来方便学习。！！！以下部分转自：h...

时序预测 - MATLAB实现BiLSTM时间序列未来多步预测（完整源码和数据）

05-26

6. **代码分析**：在提供的源码`BiLSTMTIMEN.m`中，可以看到具体的实现细节，包括数据加载、网络构建、训练和预测等步骤。通过对源码的分析，我们可以进一步了解BiLSTM在MATLAB中的具体应用。 7. **图像理解**：`...

Python 机器学习经典实例

GitChat

04-12

2万+

内容介绍在如今这个处处以数据驱动的世界中，机器学习正变得越来越大众化。它已经被广泛地应用于不同领域，如搜索引擎、机器人、无人驾驶汽车等。本书首先通过实用的案例介绍机器学习的基础知识，然后介绍一些稍微复杂的机器学习算法，例如支持向量机、极端随机森林、隐马尔可夫模型、条件随机场、深度神经网络，等等。用最火的 Python 语言、通过各种各样的机器学习算法来解决实际问题！书中介绍的主要问题如下。 ...

如何使用 MATLAB 预处理时间序列数据：此提交展示了如何使用 PMU 数据分析示例在 MATLAB 中预处理时间序列数据。-matlab开发

05-29

在本次提交中，我们演示了如何在 MATLAB 中处理和清理存储在 Excel 工作表中、以多种格式和多种采样率存储的时间序列数据。我们从使用“导入工具”从 Excel 表格导入数据开始。接下来，我们关注如何准备数据以转换为“时间表”数据类型。我们进一步深入研究了时间表可用的预处理功能，包括将数据集同步到公共时间参考、评估数据质量以及处理重复和缺失数据。最后，我们显示了变量与行时间的堆叠图。

KDD CUP99数据集预处理（Python实现）

热门推荐

Asia-Lee

05-29

7万+

目录 KDD CUP99数据集预处理 1、数据集下载 2、KDD99网络入侵检测数据集介绍 3、基于KDD99数据集的入侵检测分析 4、符号型特征数值化 5、KDD CUP99数据集预处理（Python实现） KDD CUP99数据集预处理 1、数据集下载 KDD CUP99数据集 2、KDD99网络入侵检测数据集介绍介绍一介绍二 3、基于KDD99数据集的入侵检测分...

4.3数据准备-数据预处理代码

轩宇

08-10

308

一个code资源网站：python 各种数据预处理方法及代码

jianjiaoxiaolu的博客

10-22

1617

http://shataowei.com/2017/12/01/python开发：特征工程代码模版-一/ 进入页面后ctrl+F搜需要的即可（如：不平衡数据处理方法 smote）就行，请自取

机器学习100天-1-数据预处理

ifeng

03-09

215

目录 1 导库 NumPy:数学计算函数 Pandas:导入和管理数据集 2 导入数据集 .csv:文本形式保存表格数据,一行一条数据 pd.read_csv:读取本地csv作为一个数据帧数据帧制作自变量因变量的矩阵和向量 3 处理丢失数据丢失的数据会降低模型性能 sklearn.preprocessing.Imputer:整列平均值(中间值)代替丢失 4 解析分类数据分类数据:不...

python数据处理常用代码---数据预处理

qq_39748940的博客

04-30

1万+

首先写一dataframe吧 import pandas as pd import numpy as np test_dict = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'math':[90,89,99,78,97,93],'english':[89,94,80,94,94,90]} d...

机器学习100天（Day1）

qq_15394485的博客

04-15

312

机器学习100天（Day 1）机器学习100天（Day1）前言开始学习第一天1. 导入数据库2. 导入数据集3. 处理丢失数据4. 解析分类数据5. 拆分数据集为测试集合和训练集合6. 特征缩放前言开始学习第一天1. 导入数据库2. 导入数据集3. 处理丢失数据4. 解析分类数据5. 拆分数据集为测试集合和训练集合6. 特征缩放 机器学习100天（Day1）前言 17年硕士毕业，读研期间一直...

【Python机器学习】——正态数据分布