pandas内置数据集_Pandas进行数据读取和预处理

注:文章第二部分,pandas进行数据简单处理来自刘顺祥老师公众号:

数据分析1480(微信号:lsxxx2011)

数据框与文件读取部分

836377320123

数据读取--from MySQL,CSV文件

836377320123

通过MySQL读取

836377320123

通过csv文件读取

数据集的描述describe()

836377320123

不同的describe参数,返回不同的结果

借助pandas进行数据预处理,包括:

1、数据集变量与观测的筛选

2、变量重命名

3、数据类型的变换

4、排序

5、重复观测的删除

6、数据集的抽样

一、数据筛选

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Titanic 数据集是一个经典的机器学习数据集,包含了 Titanic 号船上的乘客信息,包括是否幸存、姓名、性别、年龄、船票等级、票价、船舱号、登船港口等。下面是对 Titanic 数据集进行 Pandas 预处理的步骤: 1. 读取数据:使用 `pandas.read_csv()` 函数读取 Titanic 数据集文件。 ```python import pandas as pd titanic_df = pd.read_csv('titanic.csv') ``` 2. 数据清洗:删除不必要的列和缺失值。 ```python # 删除不必要的列 titanic_df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True) # 删除缺失值 titanic_df.dropna(inplace=True) ``` 3. 数据转换:将分类变量转换为数值变量。 ```python # 将性别变量转换为数值变量 titanic_df['Sex'] = titanic_df['Sex'].replace({'male': 0, 'female': 1}) # 将登船港口变量转换为数值变量 titanic_df['Embarked'] = titanic_df['Embarked'].replace({'C': 0, 'Q': 1, 'S': 2}) ``` 4. 数据分组:将数据集按照船票等级分组。 ```python grouped = titanic_df.groupby('Pclass') ``` 5. 数据聚合:对分组后的数据进行求和、计数、平均值等统计操作。 ```python # 求每个船票等级的平均年龄 grouped['Age'].mean() ``` 6. 数据合并:将多个数据集按照指定的列进行合并。 ```python # 合并两个数据集 merged_df = pd.merge(titanic_df, other_df, on='PassengerId') ``` 7. 数据重塑:将数据集进行透视,将行列数据进行重塑。 ```python # 将数据集按照性别和船票等级进行透视 pivot_df = pd.pivot_table(titanic_df, values='Survived', index='Sex', columns='Pclass') ``` 这些步骤可以根据具体的分析需求进行灵活调整,帮助我们进行数据清洗、转换、分析和可视化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值