数据分析不仅是数据分析师、数据挖掘工程师、数据科学家的必备技能之一,也是日常工作中进行业务分析的不可或缺的环节。
![6b85e136b3aefd0180bfcc3924ed3753.png](https://i-blog.csdnimg.cn/blog_migrate/74d17da1f3de2934a75511c690f64619.jpeg)
![d9b5f87766a1257a93b796e6fe5ba267.gif](https://i-blog.csdnimg.cn/blog_migrate/cc5e1709b7b9af38da1a23052f6ab09c.gif)
点击上方”关注“,提供优质内容,有兴趣看公众号其他文章和视频
小编将用几篇文章逐一介绍日常工作中常用的一些方法,包括选择、缺失值、合并、分组、重塑、数据透视表、数据序列、分类、绘图、数据的输入输出等处理方法。
本篇将介绍pandas的安装方法、pandas能解决什么问题、主要有哪些数据结构、函数处理方面包括选择和缺失值处理方法,如有兴趣可以点击上方“关注”。
Pandas是一个开源的,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。
安装方式
获得 Pandas 的最佳方式是通过 conda
conda install Pandas
在Windows、Linux和MacOS上,所有受支持的python版本都可以使用包。
也可以通过以下方式安装:
pip install Pandas
Pandas解决了什么问题
Python在数据处理和准备方面一直做得很好,但在数据分析和建模方面就没那么好了。Pandas帮助填补了这一空白,能够在Python中执行整个数据分析工作流程,如果要实现建模功能,可以查看 statsmodels 和scikit-learn两个数据库。
数据结构
Pandas 有两个主要数据结构,Series(1维)和DataFrame(2维),Pandas建立在NumPy之上,旨在与许多其他第三方库完美地集成在科学计算环境中。
![433182122905619438a64292e87cbf31.png](https://i-blog.csdnimg.cn/blog_migrate/3936246917c1b4095021185bd6e54805.jpeg)
入门Pandas
通常,我们按如下方式导入 Pandas:
import numpy as npimport pandas as pd
对象创建
![28c0a5dd69202874e3137243026e7c24.png](https://i-blog.csdnimg.cn/blog_migrate/27c8c831c778dd94010fc52ee7c77c69.jpeg)
序列结构
![fcef26d70ce3a7ccb3ed00d2a6796397.png](https://i-blog.csdnimg.cn/blog_migrate/47b118b61a7fa39fafc7f5a88f60f0a0.jpeg)
dataframe结构
描述函数
- describe() 方法显示数据的快速统计摘要
![00d951f5060c90a24b36f39c08d0b2e9.png](https://i-blog.csdnimg.cn/blog_migrate/f0e9afbe17a45b6f223a48d7ec0164a2.jpeg)
- 查看DataFrame顶部数据
![058b2bd46ed03f3221e143bc60f5e9e3.png](https://i-blog.csdnimg.cn/blog_migrate/752325a5a2d5f075adfa0bcefe1b6875.jpeg)
选择函数
- 按值排序,比如B列数值
![cdd0f7398be1b27d1822656f5d62375f.png](https://i-blog.csdnimg.cn/blog_migrate/129af6c3b50c0564182bb6708cc88d3d.jpeg)
- 通过[ ]选择,对行进行切片
![61c003104e96cd8065b071a74bdaa8df.png](https://i-blog.csdnimg.cn/blog_migrate/70ab2039e515d2c0bc8726c6d2dfc7ca.jpeg)
- loc函数
![45babf1e2a3b04a55fe12a4366f5b843.png](https://i-blog.csdnimg.cn/blog_migrate/c48f411349c78744a63d0107e431aae6.jpeg)
- 单个列的值来选择数据
![2346fbce328c966b459fa7255256fcb5.png](https://i-blog.csdnimg.cn/blog_migrate/ec03bfd379d45a301101c8a3441f60a0.jpeg)
- isin()函数进行过滤
![5ac2ab75737b637a7f6ae46468521784.png](https://i-blog.csdnimg.cn/blog_migrate/bb8308369f2ca4c2b0fb8678bc39475f.jpeg)
缺失值处理方法
- 使用值np.nan来表示缺失的数据
- 删除任何带有缺失值的行
![0ab157e46bced423d43655cff0da61b6.png](https://i-blog.csdnimg.cn/blog_migrate/4a31213df03adc0a2022b5abc9919568.jpeg)
- fillna填充方法
![739325d590ae99c3da57e2e4821ebe83.png](https://i-blog.csdnimg.cn/blog_migrate/1b558978360c6bd872b8d7b900383e66.jpeg)
- 获取值为nan的
![48f495730081a3e6efcaf9e3ac3b41c1.png](https://i-blog.csdnimg.cn/blog_migrate/9fae11cd05255538f60a6d5e91f712cb.jpeg)