泰坦尼克项目小结

本文作者通过4遍实践,详细介绍了使用Pandas进行数据挖掘的泰坦尼克项目,涵盖数据读取、观察、清洗、重构、可视化及模型搭建的过程。在数据处理中,涉及填充缺失值、去重、文本编码转换等;在数据可视化方面,利用Matplotlib和seaborn进行图表展示;在模型预测部分,提到了逻辑回归和随机森林。作者认为模型创建与评估是下一步学习的重点。
摘要由CSDN通过智能技术生成

本课程是以项目为主线引导学员学习掌握Pandas发的常用知识点的项目,自己已经连续做了4遍;基本上掌握了这些基本知识。

从本项目的完成过程来看,就数据分析的流程而言,分以下几步:

一、读取文件;
导包: import    as
pd.read_csv('文件名');   df.to_csv('文件名');os.getcwd(),os.path.abspath('文件名')
df.columns = ['列名', '列名'……], pd.read_csv('文件名', names=['列名','列名', '列名'……]

二、观察数据,包括个字段名称、性质、是否有空值、是否有重复值、是否有明显不符合相关维度性质的值等等;总之,一方面观察数据是什么,他们之间有什么联系;另一方面观察数据是否异常,有哪些异常;
df.info(), df.describe(), df.isnull(), df.duplicated(),

三、数据处理

1、数据清洗,补空、去重以及将不适合的值一般化;
df.fillna({'列名': 0}), df.drop_duplicates(),unique(),
df.['列名'].replace(['文本值1', '文本值2'], [数值1,数值2], inplace=True)
from sklearn.preprocessing import LabelEncoder
df['Cabin'] = LabelEncoder().fit_transform(df['Cabin

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值