机器学习笔记入门（三）

最新推荐文章于 2022-10-16 21:10:11 发布

Pizza_Lawson

最新推荐文章于 2022-10-16 21:10:11 发布

阅读量309

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Pizza_Lawson/article/details/90441240

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

线性模型

有几个点需要了解：

线性模型的形式： f(x) = w1x1 + w2x2 +…+ wm*xm + b
从这里我们可以了解前面几章介绍的模型，训练，预测等等知识的真实面目，上面这个函数或者公式，就是所谓的模型。西瓜问题的线性模型就形同：
f_好瓜(x)=a * x_色泽 + b * x_根蒂 + c * x_敲声 + 1
其中a,b,c就是需要大量数据来训练的参数，实际做法就是，通过大量的西瓜数据带入到各个x中去，然后通过赋予a,b,c各种值来让**f_好瓜(x)**的错误最低，这个做法就是训练，训练的结果就是会出现类似如下的模型：
f_好瓜(x)=0.2 * x_色泽 + 0.5 * x_根蒂 + 0.2 * x_敲声 + 1
其中0.2和0.5就是通过训练得来的，错误率最低的参数，也就是最优的参数，接下来就是预测，实际做法就是再拿一些训练集以外的数据，形同（色泽=浅白，根蒂=蜷缩，敲声=浊响）分别带入到三个x中，就能计算出 f_好瓜(x) 的值，整个过程就是这样。当然训练和预测一般是交替进行的，训练的参数表现好不代表预测也会表现得很好。
另外，也可以看出，根蒂比色泽对是不是好瓜的判断更重要，因为根蒂的参数0.5大于色泽0.2 。
线性回归
通俗理解线性回归
线性回归的目的是在训练的过程中，判断给定的参数是否最好，误差最小。它的核心思想就是求得多个 模型预测的结果和真实结果之间的差距 之和，这个和越小，参数就越接近合适。
对数几率回归
需要先了解，单调可微函数，对数。然后详细见这里。
对数几率回归实际上是针对分类学习的，即“好瓜”和“坏瓜”这类问题的。
LDA（线性判别分析）
投影后类内方差最小，类间方差最大
降维：以西瓜为例子，色泽是一个维度，根蒂是一个维度，敲声是一个维度，这个在前面假设空间里提到过，而如果西瓜不止这些对好瓜坏瓜的因素而是有很多个，比如大小，图案等等，那么西瓜这个问题就有多个维度。针对上面的好瓜模型 f_好瓜(x)=a * x_色泽 + b * x_根蒂 + c * x_敲声 + 1 ，如果色泽对于好瓜坏瓜这个结果并没有影响，那么就把这一项去掉，但需注意，这里的去掉并非是人为的把它去掉，而是如LDA模型在训练的过程中会学习到色泽对于结果没有影响，因此会在算法内把它去掉。
多分类学习
多分类学习的核心思想是将多个分类任务拆分为若干个二分类任务。拆分的策略
类别不平衡问题