数据分析之pandas_20题
系列文章
数据分析之pandas_20题_1-5
数据分析之pandas_20题_6-10
数据分析之pandas_20题_11-15
写在前面的话
这边笔记主要记录一些在数据分析过程中使用到的pandas模块的方法,希望可以帮到需要的人。
pandas 20题并不是简单的20个题目哟,是20中不同的需求。
pandas是什么?
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。常用语数据分析处理
引入库
代码如下(示例):
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
16.画图
pandas可以直接进行画图,实际是调用了matplotlib库的画图方法
准备数据
df = pd.DataFrame(
np.random.randint(10,100,(100,5)),
columns=[i for i in 'abcde']
)
df['label'] = [random.sample(['A','B','C'],1)[0] for i in range(100)]
结果
画图
df.plot(figsize=(16,10),y='a',kind='bar')
结果
df.plot()的参数很多,均是关键字参数,一般常用的有 x : 横坐标 默认是索引 y : 纵坐标 默认全部数值型类型列 kind : 图类型
- ‘line’ : line plot (default) 折线图,默认是折线图
- ‘bar’ : vertical bar plot 柱状图
- ‘barh’ : horizontal bar plot 水平柱状图
- ‘hist’ : histogram 直方图
- ‘box’ : boxplot 箱型图
- ‘kde’ : Kernel Density Estimation plot
- ‘density’ : same as ‘kde’
- ‘area’ : area plot 面积图
- ‘pie’ : pie plot 饼图
- ‘scatter’ : scatter plot 散点图
- ‘hexbin’ : hexbin plot.
figsize: 图大小 (宽,高) 元组类型 title :图的标题 grid :网格
df.plot.bar(y=‘a’,figsize=(16,10)) 与 df.plot(figsize=(16,10),y=‘a’,kind=‘bar’) 的结果完全一致
df.plot(kind='kde',title='kde 图',grid='--')
# kde图是将数据做了标准化处理,消除了各个维度间的量纲