1.为什么要学习数据分析
对大量数据进行统计分析,从数据中总结出需要的规律,通过绘图将这些规律可视化。这是python数据科学的基础,是机器学习课程的基础。
2.什么是数据分析
用适当的方法对收集来的大量数据进行分析,帮助人们作出判断,以便采取适当行动。
3.数据分析流程
解释:
提出问题:知道当前项目的目的
准备数据:从数据库中读取数据,对数据进行预处理,即数据清洗
分析数据:利用数据分析的几大库(matplotlib、numpy、pandas等)对数据进行处理
获得结论
成果可视化
环境安装
略
Matplotlib
什么是matplotlib???
最流行的python底层绘图库,主要做数据可视化图表
可将数据进行可视化,更直观呈现
使数据更加直观,更具有说服力
折线图绘制
——以折线的上升或者下降来表示统计数量的增减变化的统计图,能够显示数据的变化趋势
we can:
1.设置图片大小
plt.figure(figsize=(20,8),dpi = 80)
2.保存
plt.savefig('./t1.png')#保存在当前目录下
另:可保存为svg这种矢量图图格式,放大不会有锯齿
3.设置x轴的刻度
plt.xticks(range(2,25))
4.设置y轴刻度
plt.yticks(y)
5.调整X轴或者Y轴上的刻度
_x = list(x)#只有列表才能取步长
_xtick_labels = ['10点{}分'.format(i) for i in range(60)]
_xtick_labels += ['11点{}分'.format(i) for i in range(60)]
plt.xticks(_x[::3],_xtick_labels[::3],rotation=90)#rotation为旋转90度
6.添加描述信息
plt.xlabel('时间')
plt.ylabel('温度 单位(℃)')
plt.title('10点到12点的温度变化情况')
7.添加网格与设置网格透明度
plt.grid(alpha=0.4)#添加网格与设置透明度,透明度alpha范围为(0,1)
8.添加图例
plt.plot(x,y1,label='小明')
plt.plot(x,y2,label='小黑')
plt.legend(loc='upper left')#添加图例
8.自定义线条风格
color
linestyle
linewidth
alpha(透明度)
plt.plot(x,y1,label='小明',color='orange',linestyle=':',linewidth=5,alpha=0.5)#冒号表示纯虚线,还有"--"风格
9.绘制多个图形
多次plt.plot()即可
实战:统计小明与小黑11岁到30岁女朋友的数量
from matplotlib import pyplot as plt
x = range(11,31)
y1 = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]
y2 = [1,0,3,1,2,2,3,3,2,1,2,1,1,1,1,1,1,1,1,1]
plt.figure(figsize=(20,8),dpi=80)
_xlabel = ['{}岁'.format(i) for i in x]
plt.xticks(x,_xlabel)
plt.yticks(range(0,7))
plt.xlabel('年龄')
plt.ylabel('女友数量 单位(个)')
plt.title('小明与小黑从11岁到30岁每年交往女友个数统计')
plt.grid(alpha=0.4)#添加网格与设置透明度,透明度alpha范围为(0,1)
plt.plot(x,y1,label='小明',color='orange',linestyle=':',linewidth=5,alpha=0.5)#冒号表示纯虚线,还有"--"风格
plt.plot(x,y2,label='小黑',color='r',linestyle='-.')
plt.legend(loc='upper left')#添加图例
plt.show()
由上图可知:
1.小黑比小明早熟一点,但是22岁就变得单一起来
2.小明年轻时候比较放荡不羁,23岁那一年,他换了很多女朋友,28岁那一年,他终于老实了,男人嘛,成熟点好。
### 其他类型的图绘制可参考
Gallery — Matplotlib 3.4.3 documentationhttps://matplotlib.org/stable/gallery/index.html