机器学习分类
监督学习
监督学习的定义
监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
- 常见的监督学习
假设有如下一组销售数据:
index | 单价 x1 | 销量 x2 | 利润 y |
---|---|---|---|
1 | 40 | 50 | 100 |
2 | 43 | 51 | 105 |
3 | 44 | 45 | 105 |
4 | 46 | 39 | 104 |
5 | 54 | 88 | 145 |
6 | 63 | 150 | 233 |
7 | 78 | 56 | 214 |
8 | 43 | 76 | 200 |
9 | 98 | 88 | 543 |
10 | 43 | 66 | 23 |
在这里我们将利润称作y,这里有两个影响利润的因子:分别为单价(x1)和销量(x2) ,所以我们也可以将函数模型写成 y = w1x1+w2x2+b 这里w1与w2都称作系数,b称作截距。
我们的目的就是通过以往的数据推算出模型,然后用模型来预测将来的值,类似这种我们有明确预测目标值的模型我们就称作监督学习,
无监督学习
无监督学习的定义
无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。
- 常见的无监督学习
假设有如下一组数据:
客户ID | 姓名 | 存款 | 性别 | 收入 |
---|---|---|---|---|
1 | Nick | 100000 | male | 200000 |
2 | judy | 200000 | female | 30000 |
3 | 王五 | 5000 | male | 6000 |
4 | 刘能 | 6000 | male | 5000 |
我们需要根据这些信息对客服进行分类,分成高、中、低三档,类似这种对数据进行聚类的场景我们将其称之为无监督学习