数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(3)

1.读取本的数据集

# 读取本地的数据集
# 数据集可以私信我我发给你们,同样也可以
df = pd.read_excel('data1.xlsx')  
df

在这里插入图片描述

2.查看数据的前5行

使用head()函数查看数据的前几行,可以传入具体的数,默认是5

# 查看数据的前5行
df.head()

在这里插入图片描述

3.将salary列的数据转换为最大值和最小值的平均值

map和apply函数接受的参数都是一个行数,而且都不会直接改变原数据,都是返回一个新的DataFrame对象

# 将salary列数据转换为最大值和最小值的平均值
# 方式一 使用map函数
def fun(x):
    a,b = x.split('-')
    a = int(a.strip('k'))*1000
    b = int(b.strip('k'))*1000
    return int((a+b)/2)
df['salary'].map(fun)

# 方式二使用apply函数
df['salary'] = df['salary'].apply(fun)
df

4.将数据根据学历进行分组计算平均值

使用groupby()函数进行分组

# 将数据根据学历进行分组并计算平均值
df.groupby('education').mean()

在这里插入图片描述

5.将createTime列转换为月日

# 将create Time列转换为月日

for i in range(len(df)):
    df.iloc[i,0] = df.iloc[i,0].to_pydatetime().strftime('%m-%d')

df.head()

在这里插入图片描述

6.查看所索引,数据类型和内存信息

info()函数

# 查看索引,数据类型,和内存信息
df.info()

在这里插入图片描述

7.查看数值型列的汇总统计

describe() 返回的数据包括,数量,数据的平均值,标准差,最小值,最大值,25%、50% 75 % 的分位数

# 查看数值型列的汇总统计
df.describe()

在这里插入图片描述

8.新增一列根据salary将数据分为三组

# 新增一列根据salary将数据分为三组,并且设置等级
bins = [0,5000,20000,50000]
group_names = ['底','中','高']

df['categories'] = pd.cut(df['salary'],bins,labels=group_names)
df

在这里插入图片描述

9.按照salary列队数据降序排序

sort_values 默认是升序

# 按照salary列对数据降序排列
# ascending=False降序
# ascending=True升序

df.sort_values('salary',ascending=False)

在这里插入图片描述

10.取出第33行的数据

根据索引选出第33行,索引从0开始

# 取出第33行的数据
df.loc[32]

在这里插入图片描述

今天的10道题涉及的东西多了一些,groupbydescribecutsort_valuesinfo等,如果想要全部的了解这些,仅靠这10道题是远远不够的,希望大家能够额外找些试题练习,也可以根据跟着博主的文章一块刷题✨✨✨

推荐使用牛客网进行练习 直达牛客,快人一步

在这里插入图片描述

欢迎您的关注
在这里插入图片描述

Kaggle 是一个数据科学竞赛平台,提供了大量的数据集和机器学习问题供用户解决。PandasPython 中一个非常强大的数据处理库,可以帮助我们高效地处理和分析数据。 根据题目要求,我们需要使用 Pandas 创建一个数据集,并填充数据。首先,我们可以导入 Pandas 库并创建一个空的数据集: ```python import pandas as pd data = pd.DataFrame() ``` 接下来,我们可以根据题目需求添加列和数据。例如,如果题目要求我们创建一个包含姓名和年龄的表格,我们可以这样做: ```python data['姓名'] = ['张三', '李四', '王五'] data['年龄'] = [25, 30, 35] ``` 这样就创建了一个包含两列(姓名和年龄)的数据集,并填入了对应的数据。 如果题目还要求我们创建其他列,比如性别、职业等,我们可以类似地继续添加数据: ```python data['性别'] = ['男', '女', '男'] data['职业'] = ['工程师', '教师', '医生'] ``` 这样我们就完成了数据集的创建和填充。 最后,我们可以打印数据集并进行验证,确保我们创建的数据集符合要求: ```python print(data) ``` 输出的结果应该是这样的: ``` 姓名 年龄 性别 职业 0 张三 25 男 工程师 1 李四 30 女 教师 2 王五 35 男 医生 ``` 通过上述步骤,我们成功创建了一个包含姓名、年龄、性别和职业的数据集。这就是使用 Pandas 在 Kaggle 上进行数据处理的简单示例。
评论 108
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱喝水的小鲨鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值