day_1.数据分析师进阶必备之myql

本文指出,尽管MySQL在数据处理中常见,但在底层数据分析工作中,Excel凭借其强大的功能如VLOOKUP、SUMIF、XLOOKUP和数据透视表,足以胜任。作者强调了Excel的基础操作,如Crtl+Shift+L筛选和C+V复制,以及与MySQL功能的部分重叠。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

嘿嘿,你们肯定是被标题骗过来的,其实最底层的数据分析工作是不用mysql的,只用excel,强大的excel,excel中我们用到的最核心的可能也就是Ctrl+shift+L键进行的筛选了,我是进入到工作中才开始学习excel的,结合具体的业务很快就可以上手,要求也不是很高,用的最多的就是vlookup函数匹配,还有sumif函数,以及Xlookup函数,数据透视表大家如果想学的话,自己去搜吧,因为我大学的时候没有怎么系统的去学习过excel只是学习过一些mysql,这两个其实有些功能是相同的

增,删,改,查。excel中的增加,一般都是我们直接C+V大法,删除的话选中某些行,快捷删除,,,等等,这只是一些基础的

好的,以下是Python代码实现: ``` import pandas as pd import numpy as np import matplotlib.pyplot as plt # 1. 读取并查看数据 bike_day = pd.read_csv('bike_day.csv') print(bike_day.head(5)) # 前5行 print(bike_day.tail(2)) # 后2行 # 2. 处理数据并导出到文件 bike_day_user = bike_day[['instant', 'dteday', 'yr', 'casual', 'registered']].dropna() bike_day_user.to_csv('bike_day_user.txt', sep=' ', index=False, header=False) # 3. 读取数据并添加新列并导出到新文件 bike_day_user = pd.read_csv('bike_day_user.txt', sep=' ', header=None, names=['instant', 'dteday', 'yr', 'casual', 'registered']) bike_day_user['cnt'] = bike_day_user['casual'] + bike_day_user['registered'] bike_day_user.to_excel('bike_day_user_cnt.xlsx', index=False) # 4. 读取数据并进行统计 bike_day_user_cnt = pd.read_excel('bike_day_user_cnt.xlsx') print('cnt最大值:', bike_day_user_cnt['cnt'].max()) print('cnt最小值:', bike_day_user_cnt['cnt'].min()) print('2011年cnt年平均值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 0]['cnt'].mean()) print('2012年cnt年平均值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 1]['cnt'].mean()) print('2011年月平均值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 0].groupby('mnth')['cnt'].mean()) print('2012年月平均值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 1].groupby('mnth')['cnt'].mean()) # 5. 可视化并保存图像 fig, ax = plt.subplots() ax.barh(bike_day_user_cnt['mnth'], bike_day_user_cnt[bike_day_user_cnt['yr'] == 0].groupby('mnth')['cnt'].mean(), color='blue', label='2011') ax.barh(bike_day_user_cnt['mnth'], bike_day_user_cnt[bike_day_user_cnt['yr'] == 1].groupby('mnth')['cnt'].mean(), color='lightblue', label='2012') ax.set_yticks(np.arange(1, 13)) ax.set_yticklabels(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']) ax.set_xlabel('Average number of shared bike users') ax.set_title('Monthly Average Number of Shared Bike Users in 2011-2012') ax.legend() fig.savefig('bike_day_user_cnt.png', dpi=300) ``` 这段代码实现了对给定数据的读取、处理、统计、可视化和保存等功能。其中: - 第1步使用`pandas`库读取`bike_day.csv`文件,并分别查看前5行和后2行数据。 - 第2步选择5列数据并将缺失值丢弃,处理后的数据导出到`bike_day_user.txt`文件中。 - 第3步读取`bike_day_user.txt`文件,并添加新的一列`cnt`表示共享单车租赁用户总数,将处理后的数据导出到`bike_day_user_cnt.xlsx`文件中。 - 第4步读取`bike_day_user_cnt.xlsx`文件,并对`cnt`列进行最大值、最小值、年平均值和月平均值的统计。 - 第5步使用`matplotlib`库进行数据可视化,并保存为`bike_day_user_cnt.png`文件。 希望这个代码可以帮到你!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值