第一章 数据可视化与matplotlib
1、数据可视化的概述
数据可视化在维基百科上是这样定义的:指一种表示数据或信息的技术,它将数据或信息编码为包含在图形里的可见对象,如点、线、条等,目的是将信息更加清晰有效地传达给用户,是数据分析或数据科学的关键技术之一。简单地说,数据可视化就是以图形化方式表示数据。决策者可以通过图形直观地看到数据分析结果,从而更容易理解业务变化趋势或发现新的业务模式。使用可视化工具,可以在图形或图表上进行下钻,以进一步获得更细节的信息,交互式地观察数据改变或处理过程。
2、matplotlib概述
数据可视化在机器学习和数据科学中是很重要的组成部分。在数据分析阶段,数据可视化能够帮助我们理解洞察数据间关系;在算法调试阶段,数据可视化能够发现问题,优化算法;在项目总结阶段,数据可视化能够展示项目成果。
Matplotlib是绘制图表的第三方库,可以快速方便地生成高质量的图表,包括直方图,柱形图,散点图,气泡图,折线图,三维图等。
●安装Matplotlib库
Anaconda :安装了anaconda之后,Matplotlib就已经被安装好了
●导入Matplotlib库中的pyplot子库
import matplotlib.pyplot as plt
在pyplot中使用figure对象进行画图,他相当于一张画布,因此需要先创建对象
figure( num,figsize,dpi,facecolor,edgecolor,frameon)
★num :图形编号(数字)或名称(字符串),取值为数字/字符串
★figsize : 绘图对象的宽和高,单位为英寸
★dpi :绘图对象的分辨率,缺省值为80
★facecolor :背景颜色。
★edgecolor :边框颜色。
★frameon :表示是否显示边框。
★添加子标题title (标题文字)
折线图和柱形图
●折线图(Line Chart) 其实是散点图的基础上,将相邻的点用线段相连接。通过plot()函数绘制。
plot( x, y, color, marker, label, linewidth, markersize)
●柱状图(Bar Chart)是由一系列高度不等的柱形条纹表示数据分布的情况。
bar( left, height, width, facecolor, edgecolor, label )
散点图
●散点图(Scatter)是数据点在直角坐标系中的分布图,用来分析原始数据分布的规律以及数据变化的趋势。同时还可以数据分组,指的是在散点图中可以通过不同的颜色来划分组别。
★scatter( )函数
scatter( x, y, scale, color, marker, label)
本章小结
本章主要介绍了数据可视化和 matplotib 的人门知识,包括数据可视化概述、常见的数据可视化库、初识matplotlib、使用matplotlib绘制图表。以熟悉数据可视化的过程和方式,能够独立搭建开发环境,并对matplotib 开发有一个初步的认识,为后续的学习做好铺垫。