泰坦尼克项目小结

最新推荐文章于 2023-03-10 21:20:03 发布

独孤燎原

最新推荐文章于 2023-03-10 21:20:03 发布

阅读量185

点赞数

文章标签：数据挖掘数据分析 big data

本文链接：https://blog.csdn.net/haozhengwei81/article/details/125020326

版权

本文作者通过4遍实践，详细介绍了使用Pandas进行数据挖掘的泰坦尼克项目，涵盖数据读取、观察、清洗、重构、可视化及模型搭建的过程。在数据处理中，涉及填充缺失值、去重、文本编码转换等；在数据可视化方面，利用Matplotlib和seaborn进行图表展示；在模型预测部分，提到了逻辑回归和随机森林。作者认为模型创建与评估是下一步学习的重点。

摘要由CSDN通过智能技术生成

本课程是以项目为主线引导学员学习掌握Pandas发的常用知识点的项目，自己已经连续做了4遍；基本上掌握了这些基本知识。

从本项目的完成过程来看，就数据分析的流程而言，分以下几步：

一、读取文件；
导包: import as
pd.read_csv('文件名'); df.to_csv('文件名')；os.getcwd(),os.path.abspath('文件名')
df.columns = ['列名', '列名'……], pd.read_csv('文件名', names=['列名','列名', '列名'……]

二、观察数据，包括个字段名称、性质、是否有空值、是否有重复值、是否有明显不符合相关维度性质的值等等；总之，一方面观察数据是什么，他们之间有什么联系；另一方面观察数据是否异常，有哪些异常；
df.info(), df.describe(), df.isnull(), df.duplicated(),

三、数据处理

1、数据清洗，补空、去重以及将不适合的值一般化；
df.fillna({'列名': 0}), df.drop_duplicates(),unique(),
df.['列名'].replace(['文本值1', '文本值2'], [数值1，数值2], inplace=True)
from sklearn.preprocessing import LabelEncoder
df['Cabin'] = LabelEncoder().fit_transform(df['Cabin