博文配套视频课程:24小时实现从零到AI人工智能
机器学习分类
机器学习的主要任务便是聚焦于两个问题:分类和回归
- 分类相信大家都不会陌生,生活中会见到很多的应用,比如垃圾邮件识别、信用卡发放等等,就是基于数据集,作出二分类或者多分类的选择
- 回归会给出一个具体的结果,例如房价的数据,根据位置、周边、配套等等这些维度,给出一个房价的预测
机器学习在不同的维度会有不同的划分,最普遍的划分大致可以分为监督学习、非监督学习、半监督学习、增强学习
监督学习的数据集拥有既定的标签,即训练的数据集已经有了某种特定的属性,例如医院有很多病人的数据,可以根据患者的数据进行病情的鉴定、银行有很多人的信用信息,根据这些信息可以判定申请人的信用程度等等。
非监督学习的数据集没有任何既定标签,完全让算法去分析这些数据,找出一些特殊情况,大多数聚类算法都是非监督学习。
半监督学习,虽然数据集有既定标签,但是有时候有些数据会有缺失,例如银行信用体系中,有些人的年龄数据缺失、有些人性别数据缺失等等。
增强学习,即根据当下的环境不断的去学习,不断的发现数据集,不断的训练自己,例如阿尔法狗以及无人驾驶等,都是增强学习的应用。
线性回归原理
下面的数据很容易获得房屋面积与价格之间的关系面积 * 2.1 = 价格,在二维的线性关系公式为:y = kx + b 添加b是为了单个特征的情况更通用,例如x=0时y可以不经过原点
编号 | 平方米 | 价格 |
---|---|---|
1 | 60 | 126 |
2 | 72 | 151.2 |
3 | 75 | 157.5 |
4 | 80 | 168 |
5 | 83 | 174.3 |
6 | 87 | 180 |
7 | 90 | 192.2 |
8 | 93 | 194 |
如果是多个特征例如房子重要的两个参数 面积,位置。那么多特征公式为:k1房子面积 + k2房子位置 + b
线性回归定义
线性回归通过一个或者多个自变量与因变量之间进行建模的回归分析,其中可以为一个或者多个自变量之间的线性组合
- 一元线性回归:涉及到的变量只有一个
- 多元线性回归:涉及到的变量两个或者两个以上
线性回归背后矩阵运算
矩阵乘法必须满足特定条件:(m行,L列) * (L行,n列) = (m行,n列), 矩阵的乘法背后的业务逻辑就是多元线性回归的公式
In [24]: t1
Out[24]:
array([[0, 1, 2, 3],
[4, 5, 6, 7]])
In [25]: t2
Out[25]:
array([[0],
[1],
[2],
[3]])
# 0*0 + 1*1 + 2*2 + 3*3 = 14
# 0*4 + 1*5 + 2*6 + 7*3 = 38
In [26]: t1.dot(t2)
Out[26]:
array([[14],
[38]])