本文大纲
一、机器学习及其步骤
二、简单线性回归相关性分析
协方差和相关系数
简单线性回归
线性评估模型准确度
相关关系和因果关系
三、总结
一、机器学习及其步骤
1.人工智能、机器学习、深度学习的关系:人工智能范围很广,包括了机器学习,而深度学习是机器学习的一种算法。
2.机器学习步骤:提出问题
理解数据
数据清洗
构建模型
评估
3.机器学习中特征和标签的概念特征:好比一个橘子的颜色,大小。即数据的属性。
标签:根据橘子颜色、大小,我们可以判断出这个橘子是甜的还是不甜的。其中“甜”/“不甜”就是标签。所以标签是数据的预测结果。
二、简单线性回归
本章核心要点是介绍简单线性回归的理论部分,后续会用Python机器学习包:sklearn(全称scikit-learn),来实现线性回归。sklearn包的安装方法和pandas等包的安装方法相同。
2.1 相关性分析
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
----案例:学生的学习时间与数学考试成绩的相关关系。
(1)建立数据集如下,这里以小样本数据来解释相关分析方便理解。
(2)横轴X表示学习时间,Y轴表示考试分数
从输出结果可以大致看出,数学考试成绩似乎是随着学生学习时间增多而增大的。但这只是人为直观看出来的,我们