初识python_数据分析小案例
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt #数据分析三个模块
data = pd.read_excel(r"F:\7月销售额分布.xlsa") #导入数据源
data #输出所有数据
data.head() #输出部分数据
data.shape #输出数据(有几行、几列数据)
data.describe() #数据的描述性分析
data.sort_values(by='销售额',ascending = False).head() #排序:对‘销售额’进行排序,ascending=False表示降序
data1=data.groupby(['区域'])[['销售额','毛利额']].mean() #按区域分组查看各区域的店日均销售额、毛利额
data1 #输出数据
data1.sort_values(by='销售额',ascending=False) #通过排序方便查看输出的结果
data2=data.loc[(data.['毛利额']<1000)] #按1个条件查询
data2.sort_values(by='毛利额').head() #输出
data3=data.loc[(data['毛利额']<1000)&(data['区域']=='南宁配送中心')] #按多个条件查询
data3.sort_values(by='毛利额').head() #输出
data.pivot_table(values=['销售额'],index=['区域'],aggfunc=['sum','mean','max','min']).head() #透视表
data4=data.pivot_table(values=['销售额'],index=['区域'],aggfunc=('mean'))
data4.plot.bar(figsize=(4,3))
plt.show #柱形图
data5=data.pivot_table(values=['销售额'],index=['区域'])
data5.plot.box(figsize=(4,3))
plt.show #箱线图 查看销售额的分布区间