python数据分析pandas库
前言
为啥要用python中的pandas库进行数据分析,用excel不可以吗?不可以,excel处理上万条数据时通常会死机或者出错,python不会有这种问题。相信鲤鱼学长,在学习乃至日后工作中,pandas库将会风靡相当长一段时间。
提示:以下是本篇文章正文内容,下面案例可供参考
1.5基本绘图
在数据处理中我们经常用到可视化,可视化可以直观地识别数据中的趋势。我们康康世界人口各年度的预期寿命,代码如下:
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
global_yearly_life_expectancy=df.groupby('year')['lifeExp'].mean()
print(global_yearly_life_expectancy)
global_yearly_life_expectancy.plot()
plt.show()
结果如下:
year
1952 49.057620
1957 51.507401
1962 53.609249
1967 55.678290
1972 57.647386
1977 59.570157
1982 61.533197
1987 63.212613
1992 64.160338
1997 65.014676
2002 65.694923
2007 67.007423
Name: lifeExp, dtype: float64
在这里面出现了几个问题,我给大家记录了一下,避免踩坑。
第一个坑
首先就是下载matplotlib这个库,网上常见的方法是这样,打开cmd,用命令下载:
pip install matplotlib
但是这个matplotlib库有32M,下载速度很慢,在CSDN有一位博主给出的解决方法,就是利用国内镜像下载。附上链接:
https://blog.csdn.net/SSSyria/article/details/103004602?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159776740019195264536227%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=159776740019195264536227&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_ecpm_v3~pc_rank_v2-2-103004602.first_rank_ecpm_v3_pc_rank_v2&utm_term=pip%E5%AE%89%E8%A3%85seaborn%E5%BA%93%E5%BE%88%E6%85%A2&spm=1018.2118.3001.4187
下载起来贼快。
第二个坑
在这之前,我的代码是这样写的:
import pandas as pd
import matplotlib
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
global_yearly_life_expectancy=df.groupby('year')['lifeExp'].mean()
print(global_yearly_life_expectancy)
global_yearly_life_expectancy.plot()
我这里import matplotlib导入库时报错,我以为是没有这个库,然后去下载了,file>settings里面也确认过路径了,还是不行!
于是看网上说是一些依赖库需要更新,接着我也更新了,还是不行!
又有人说是环境变量不行,我也改了,还是不行!
重启了也不行,无语了,然后我把代码改成第一段里面那样,于是就OK了,不得不说,python真的玄学!
第三个坑
编程的朋友都知道Github是一个优秀的开源(同性)交友网站。可是她的服务器在国外,国内下载很慢,网上有不少方法:改host,用码云,还有就是有一些用爱发电的网站免费代下载。
但是我嫌麻烦,于是我翻了翻B站的评论,发现有一位老铁说电脑连接手机热点下载速度就快了。实测可靠。
这里只提到基本的绘图,后面会有专门的文章展开叙述。
以后我所有的代码和数据集链接都放微信公众号那边吧,两边都放我怕搞混了,而且我看好像没有多少博主把百度网盘的链接放CSDN,不晓得为啥。
我用的python版本是python3.7 64位,pycharm是2017.1 64位。大家根据自己的电脑来安装python和编译器。
欢迎大家关注我的微信公众号:鲤鱼学长
注意:
1、这里也可以选择不把结果打印出来。
2、python里路径的写法,我这(r’xxx’)是一种,不同的版本,不同的电脑不一样,当你检查代码还是报错的话,就搜索那个错误就可以找到不少解决方法。
有啥问题欢迎童鞋们留言!