2020-08-21 泰坦尼克号数据清洗和特征工程

最新推荐文章于 2024-04-05 13:47:54 发布

今天我有更博学吗？

最新推荐文章于 2024-04-05 13:47:54 发布

阅读量762

点赞数

分类专栏：学习文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/LYY1045691954/article/details/108145722

版权

本文介绍了泰坦尼克号数据的清洗过程，包括处理缺失值、重复值，以及特征工程的操作，如年龄分箱、文本变量转换和从Name中提取Titles特征。通过这些步骤将数据转化为适合建模的状态。

摘要由CSDN通过智能技术生成

开始之前，导入numpy、pandas包和数据

#加载所需的库
import numpy as np 
import pandas as pd

数据清洗简述

目的：将数据清洗成可以分析或建模的样子
清洗对象：缺失值、重复值、异常值、数据转换等等

缺失值观察与处理
任务一:观察缺失值
任务二:对缺失值进行处理

#观察缺失值
#方法一
df.info()
#方法二
df.isnull().sum()

#处理缺失值：
#drop掉  
df.dropna()
#填充  
df.fillna(0)
#附上特定的值
df[df['Age']==None]=0

重复值观察与处理
任务一:请查看数据中的重复值

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

今天我有更博学吗？

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python实训总结泰坦尼克号_Python-数据清洗与分析案例之泰坦尼克号（一）

weixin_39556702的博客

02-03

2235

泰坦尼克号是一艘奥林匹克级邮轮，于1912年4月首航时撞上冰山后沉没。泰坦尼克号由位于北爱尔兰贝尔法斯特的哈兰·沃尔夫船厂兴建，是当时最大的客运轮船，由于其规模相当一艘现代航空母舰，因而号称“上帝也沉没不了的巨型邮轮”。在泰坦尼克号的首航中，从英国南安普敦出发，途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦，计划横渡大西洋前往美国纽约市。但因为人为错误，于1912年4月14日船上时间夜里11点40分撞上...

Titanic第二章：第一节数据清洗及特征处理

haozhengwei81的博客

05-23

328

2.1 缺失值观察与处理 import numpy as np import pandas as pd from matplotlib import pyplot as plt #读取文件train df = pd.read_csv('train.csv') df.info() 2.1.1 任务一：缺失值观察 df.isnull() df.isnull().sum() df[['Age','Cabin', 'Embarked']] 2.1.2 任务二：对缺失值进行处理 df1 = df.

参与评论您还未登录，请先登录后发表或查看评论

数据挖掘入门_泰坦尼克号存活预测之数据清洗(含数据)【一】

JinSheng

03-15

4718

数据下载链接链接：https://www.kaggle.com/c/titanic/data 或者去网盘下载：链接: https://pan.baidu.com/s/174qUpR2PDsrXrVOSenBUEA 提取码: qw67 背景 1921年4月15日，泰坦尼克号与冰山相撞，2224 名乘客和船员中有1502人丧生，虽然在沉船中幸存下来有一些运气因素，但是运气因素之外，是否还有其他因素...

数据清洗（以泰坦尼克号数据集为例）

qq_27328197的博客

03-03

1862

文章目录前言过程总结前言数据的质量决定了模型的好坏，本文以泰坦尼克号数据集为例，做一下数据集的清洗（主要是缺失值的填充）过程（最近的时间精力有限，代码见gitee）:泰坦尼克号数据清洗 总结 <如果您发现我写的有错误，欢迎在评论区批评指正> ...

动手学数据分析之 2数据清洗及特征处理

jassnsnn的博客

12-15

2100

首先大致了解数据清洗。通常情况下我们拿到的数据是会存在缺少值或者有一些异常点等，需要经过一定的处理才能继续后边的分析或建模。所以拿到数据的第一步是进行数据清洗，将数据清洗成可以分析或建模的样子。 2.1 缺失值观察与处理我们拿到的数据经常会有很多缺失值，比如有些列存在NaN，那其他列还有没有缺失值，这些缺失值要怎么处理呢 2.1.1 缺失值观察 (1) 请查看每个特征缺失值个数 (2) 请查看Age， Cabin， Embarked列的数据以上方式都有多种方式 #方法一 df....

泰坦尼克号数据-数据集

03-14

【标题】：“泰坦尼克号数据-数据集” 这个数据集是基于历史事件“泰坦尼克号”的乘客信息，广泛用于机器学习和数据分析初学者的入门教程。它包含了一个名为"day08_data.csv"的CSV文件，这是一种常见的数据存储格式...

泰坦尼克号数据集-数据集

03-26

总结来说，泰坦尼克号数据集提供了一个基础的机器学习应用场景，让学习者能够实践数据预处理、特征工程、模型选择和评估，从而掌握数据分析的基本流程。同时，这也是一个展示如何处理实际问题、解决数据不完整性和不...

泰坦尼克号数据集...

05-20

通过分析泰坦尼克号数据集，不仅可以学习机器学习的基本流程，还能掌握数据处理、特征工程和模型选择等方面的知识，对于初学者来说是一个很好的实践平台。同时，它也让我们思考在灾难面前，哪些因素可能决定一个人的...

python怎么输入多维数组_Python数据分析类库系列-Numpy之如何建立一个多维数组（2）...

weixin_39802132的博客

11-26

546

创建数组最简单的办法就是使用array函数。它接受一切序列型的对象（包括其他数组），然后产生一个新的含有传入数据的NumPy数组。以一个列表的转换为例：import numpy as npdata1 = [6, 7.5, 8, 0, 1]arr1 = np.array(data1)arr1out:array([6. , 7.5, 8. , 0. , 1. ])嵌套序列（比如由一组等长列表组成的列表...

泰坦尼克号数据分析报告

08-18

泰坦尼克号是一艘著名的豪华客轮，在其处女航中遭遇灾难，导致1500多名乘客和船员丧生。在这个项目中，我们将基于泰坦尼克号数据集探索一个基于机器学习的问题，该数据集包含有关乘客的信息，如他们的年龄、性别、船舱等级以及他们是否在船沉没时幸存下来。

数据挖掘案例: 泰坦尼克号

12-20

目录:*. 数据挖掘流程一. 数据读取与统计分析二. 特征分析 & 缺失值填充2.1 性别与获救2.2 船舱等级与获救2.3 年龄与获救2.4 姓名(称谓) 与获救2.5 填充缺失值2.6 登船地点与获救2.7 兄弟姐妹的数量2.8 父母和孩子的数量2.9 船票的价格三. 特征相关性3.1 相关性热度图3.2 热度图下三角四. 构建特征4.1 年龄特征4.2 家庭总人口4.3 船票价格4.4 类型转换与特征清洗五. 机器学习建模5.1 切分训练集与测试集5.2 逻辑回归 LogisticRegression5.3 支持向量机 SVM5.4 决策树 DecisionTree5.5 随机森林 Ra

使用Titanic 数据集进行数据清洗，并使用ID3决策树与IPOT模型对乘客生存进行预测

Chowzheng的博客

06-26

551

1. 数据清洗 代码部分 import numpy as np import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.feature_extraction import DictVectorizer from sklearn.model_selection import cross_val_score from sklearn import metrics from sklearn.feature_e

【机器学习】泰坦尼克号 -3 -数据清洗

weixin_44727383的博客

03-23

813

特征工程和数据清洗 当我们得到一个具有特征的数据集时，是不是所有的特性都很重要？可能有许多冗余的特征应该被消除，我们还可以通过观察或从其他特征中提取信息来获得或添加新特性。年龄特征：正如我前面提到的，年龄是连续的特征，在机器学习模型中存在连续变量的问题。如果我说通过性别来组织或安排体育运动，我们可以很容易地把他们分成男女分开。如果我说按他们的年龄分组，你会怎么做？如果有30个人，可能有30...

请你写一篇，对该泰坦尼克号事件的训练集和测试集数据进行清洗、可视化、挖掘，从而预测乘客是否为幸存者，挑选准确率较高的（80以上）的算法，进行模型的构建，并预测结果，保存预测结果（预测值以excel形式...

weixin_42583683的博客

12-18

在进行泰坦尼克号事件的数据清洗、可视化、挖掘、模型构建和结果预测之前，我们需要先准备数据集。这包括将数据从原始的格式导入到计算机中，然后进行预处理。在进行数据预处理时，我们需要对数据进行清洗，以确保数据的准确性和完整性。这包括检查数据中是否有缺失值，并将其填充或删除。还需要对数据进行转换，以使其适合机器学习算法的输入。这可能包括标准化数值型特征，将类别型特征转换为数字编码，等等。在准备好数据之...

头歌：数据预处理之数据清洗

qq_63438638的博客

12-03

7586

头歌，数据清洗

数据导入与预处理实验

m0_62766582的博客

11-18

180

介绍了一些预处理方法和数据探索性分析

泰坦尼克号数据清洗

2020-08-21 泰坦尼克号 数据清洗和特征工程

2020-08-21 泰坦尼克号数据清洗和特征工程