Pandas入门第一集
导语
一直想完成的系列,终于安排上了。
写这个系列的目的是把自己的学习历程做个梳理并归纳。
今天先来第一期,万事开头难。
我的入门是从安装和导入数据开始的。
如果已经很清楚这个流程的童鞋可以给我一个“在看”呀。
Pandas个萌萌的大熊猫。
功能丰富,从数据读取,清洗,再到可视化都可以完成,堪称用Python数据分析的“看家宝”了。如果你想用Python来做数据分析的话,入门Pandas是非常非常重要的!!!
01
Pandas安装
最简单的方法是Anaconda一键安装,Mac和Win都支持,依赖包和常用包自动安装,非常方便。
我不是很喜欢Anaconda安装一堆包的方法,所以Anaconda使用率不高。
个人用户下载地址:
https://www.anaconda.com/products/individual
“pip install”这种原始的方式是我的最爱。
pip install pandas
02
JUPYTER Lab介绍
如果你是用Anaconda的,从Anaconda直接打开Jupyter lab即可。
像我一样“刚”的人从终端继续pip install jupyter lab
啊哈哈。
Jupyter lab来做数据分析优点非常非常多。
- 交互式分析,即时输出结果
- 支持Markdown语法
- 可视化
目前这三个特色就可以说解决了大部分用代码写分析的数据分析师的难题。
Jupyter Lab是一个笔记本的概念,前身是Jupyter Notebook,所以把它当作一个笔记本,随时创造新东西吧。
![b9c0f75adf62767cc10b289e61236aa0.png](https://img-blog.csdnimg.cn/img_convert/b9c0f75adf62767cc10b289e61236aa0.png)
03
Pandas使用-数据导入
首先新建Jupyter Notebook
![b134af81f85ead2b0ad2627a8d9fcd47.png](https://img-blog.csdnimg.cn/img_convert/b134af81f85ead2b0ad2627a8d9fcd47.png)
查看pandas版本
![cee9721cf750a6c3d41d76a15bdd20fe.png](https://img-blog.csdnimg.cn/img_convert/cee9721cf750a6c3d41d76a15bdd20fe.png)
pandas支持多种文件格式,csv、excel、SQL、HTML、PDF等等都可支持,是不是很强大?
我们这里以csv文件为例,数据集来源于kaggle-Top 50 songs listened in 2019 on spotify。
https://www.kaggle.com/leonardopena/top50spotify2019
读取数据的语句一般为:
read_xxx
read_xxx#csv文件为read_csv()#excel文件为read_excel()其他具体的文件格式和语法参看:
https://pandas.pydata.org/docs/user_guide/io.html
读取数据吧:
![70e9f6a22593a784018557691710afc9.png](https://img-blog.csdnimg.cn/img_convert/70e9f6a22593a784018557691710afc9.png)
知识点主要有三块:
- python的导入模块语法:
import xxx as xxx
pandas导入后一般会缩略为pd,numpy导入后一般缩略为np。
- 读取文件我们这里使用的read_csv读取来源渠道不同的文件,需要注意文件编码的格式。一般使用encoding=‘utf-8’,此处我用engine = ‘python’解决了读取的问题。这份数据对应的编码可以使用encoding='ISO-8859-1'
- 展示前n行数据df.head()
以上数据已经成功导入了啦!是不是就三句话很简单!