Python机器学习原理与算法实现中绘制散点图和线图的操作

数据科学作家

已于 2024-01-15 11:59:29 修改

阅读量1.3k

点赞数 27

文章标签： python 人工智能开发语言机器学习算法数据可视化大数据

于 2024-01-01 18:54:57 首次发布

本文链接：https://blog.csdn.net/m0_72274883/article/details/135327588

版权

作为对数据进行预处理的重要工具之一，散点图（Scatter Diagram）深受专家、学者们的喜爱。散点图的简要定义就是点在直角坐标系平面上的分布图。研究者对数据制作散点图的主要出发点是通过绘制该图来观察某变量随另一变量变化的大致趋势，据此可以探索数据之间的关联关系，甚至选择合适的函数对数据点进行拟合。

散点图的绘制函数是plt.scatter() 和sns.scatterplot() 。其中plt.scatter() 的具体函数形式为：

matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, *, data=None, **kwargs)

函数中常用的参数说明如下：

x，y分别表示用于绘制散点图的x轴和y轴的数据点。
s用于控制散点的大小。
c即color，用于设置散点标记的颜色，默认是蓝色（b），如果是红色，则为'r'。
marker用于设置散点标记的样式，默认为'o'。
linewidth用于设置标记点的长度。

线图与散点图的区别就是用一条线来替代散点标志，这样做可以更加清晰直观地看出数据走势，但却无法观察到每个散点的准确定位。从用途上看，线图常用于时间序列分析的数据预处理，用来观察变量随时间的变化趋势。此外，线图可以同时反映多个变量随时间的变化情况，所以线图的应用范围也非常广泛。

以绘制invest和profit的散点图和线图为例，代码如下（注意需要全部选中这些代码并整体运行）：

plt.figure(figsize=(12,6)) # 设置图形的宽为12英寸，图形的高为6英寸

plt.subplot(1,3,1) # 指定作图位置。在同一画面创建1行3列个图形位置，首先在从左到右的第一个位置作图

sns.scatterplot(data=data, x="invest", y="profit", hue="invest", alpha=0.6) # 绘制invest和profit的散点图，使用的数据集为data，x轴为invest，y轴为profit，参数hue的作用就是在图像中将输出的散点图按照hue指定的变量（invest）的颜色种类进行区分，alpha为散点的透明度，取值为0~1

plt.title("Scatter plot") # 将散点图的标题设置为Scatter plot

plt.subplot(1,3,2) # 指定作图位置

sns.lineplot(data=data, x="invest", y="profit") # 绘制invest和profit的线图

plt.title("Line plot of invest, profit") # 将标题设置为Line plot of invest, profit

plt.subplot(1,3,3) # 指定作图位置

sns.lineplot(data=data) # 绘制全部变量的线图

plt.title('Line Plot') # 将标题设置为Line Plot，运行结果如图4.9所示

图中从左到右分别展示的是变量invest和profit的散点图、变量invest和profit的线图、数据集中所有变量的线图。

以上内容节选自《Python机器学习原理与算法实现》（杨维忠张甜著 2023年2月新书清华大学出版社）一书。本书已正式出版上市，当当、京东、淘宝等平台热销中，搜索书名即可。

针对数据分析或机器学习推荐两本入门级的图书：《Python机器学习原理与算法实现》（杨维忠 张甜著 2023年2月新书清华大学出版社）《Python数据科学应用从入门到精通》（张甜杨维忠著 2023年11月新书清华大学出版社）。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂，较少涉及数学推导，对数学基础要求相对不高，在python代码方面讲的很细致，看了以后根据自身需要选取算法、优化代码、科学调参。都有配套免费提供的源代码、数据文件和视频讲解，也有PPT、思维导图、习题等。

为什么说这两本书值得？首先说《Python机器学习原理与算法实现》（杨维忠张甜著 2023年2月新书清华大学出版社），内容非常详实，包含了Python和机器学习，相当于一次获得了两本书。在讲解各类机器学习算法时，逐一详解用到的各种Python代码，针对每行代码均有恰当注释（这一点基本上是大多数书目做不到的）。这本书在出版之前曾开发成9次系列课程，在某股份制银行全行范围类开展培训，490人跟随杨维忠老师上课学习（课程限报490人），培训完成后课程在知鸟平台上回放超过3万人次。很多银行员工通过这些学习一下子就学会了Python，并且用于工作中开展数据分析、机器学习、数据可视化等，这本书也被多家商业银行选做数字化人才培训教材，成为银行员工的一本网红书。

《Python数据科学应用从入门到精通》一书，旨在教会读者实现全流程的数据分析，并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容，进一步降低了学习难度。国务院发展研究中心创新发展研究部第二研究室主任杨超，山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博，山东管理学院信息工程学院院长袁锋教授、硕士生导师，山东大学经济学院刘一鸣副研究员、硕士生导师，得厚投资合伙人张伟民等一众大牛联袂推荐。书中全是干活，买这一本书相当于一下子得到了5本书（Python基础、数据清洗、特征工程、数据可视化、数据挖掘与建模），而且入门超级简单，不需要编程基础，也不需要过多数学推导，非常适用于零基础学生。全书内容共分13章。其中第1章为数据科学应用概述，第2章讲解Python的入门基础知识，第3章讲解数据清洗。第4~6章介绍特征工程，包括特征选择、特征处理、特征提取。第7章介绍数据可视化。第8~13章介绍6种数据挖掘与建模方法，分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。从数据科学应用和Python的入门，再到数据清洗与特征工程，最终完成数据挖掘与建模或数据可视化，从而可以为读者提供“从拿到数据开始，一直到构建形成最终模型或可视化报告成果”的一站式、全流程指导。

两本书随书赠送的学习资料也很多，包括全部的源代码、PPT、思维导图，还有10小时以上的讲解视频，每一章后面还有练习题及参考答案，还有学习群，相对于只看网络上的视频，一方面更加系统、高效，另一方面照着书一步步操作学起来也事半功倍。全网热销中，当当、京东等平台搜索“Python机器学习杨维忠”“Python数据科学杨维忠”即可。

《Python机器学习原理与算法实现》（杨维忠、张甜著，2023年2月，清华大学出版社），适用于学习Python/机器学习