声明:本文内容源自《白话深度学习与tensorflow》高扬 卫峥编著一书读书笔记!!!
聚类(clustering)是一种典型的“无监督学习”,是把物理对象或抽象对象的集合分组为彼此类似的对象组成的多个类的分析过程。
**回归(regression)**是一种归纳的思想,简单说就是“由果索因”的过程。当我们看到大量的实事所呈现的样态,从而推断出原因或客观蕴含的关系是如何的;当我们看到大量的观测而来的向量(数字)是某种样态,我们设计一种假说来描述它们之间蕴含的关系是如何的。
常用的回归有两大类:一类是线性回归,一类是非线性回归
线性回归:在观察和归纳样本的过程中认为向量和最终的函数值呈现线性关系。y=f(x)=wx+b
这里的w和x分别是1n和n1的矩阵,wb是这两个矩阵的内积。
若x是一个5维的向量,分别代表一名患者的年龄、身高、体重、血压、血脂,y是描述他们血糖程度的指标值。在拿到大量样本(大量的x和y)后,我们猜测向量(年龄、身高、体重、血压、血脂)和与其有关联关系的血糖程度y值y有这样的关系:
那么就把每一名患者的(年龄、身高、体重、血压、血脂)拘役向量值代入,并把其血糖程度y值也代入。在所有患者数据输入后,会出现一系列的六元一次方程,未知数是和b,也就是w矩阵的内容和偏置b的内容。所以,接下来的事情就是要对w矩阵的内容和偏置b的内容求出一个最“合适”的解来。
取绝对值的含义就是指这个差距无论是比观测值大还是小,都是一样的。Loss越小说明f(x)=wx+b这个映射关系描述越精确。我们将Loss描述成:
所以,我们应使用相应的办法找出保证Loss尽可能小的w和b的取值。
在传统的机器学习中回归、分类这些算法都有一个要把获取到的数据集分成训练集的过程。用训练集数据来做训练,归纳关系;用验证集数据来做验证,避免过拟合现象。
非线性回归类中,在机器学习领域应用最多的当属逻辑回归。在这种模型中,观察者假设的前提是y只有两种值:一种是1,一种是0,或者说“是”或“否”的这种判断。
如果设z=wx+b,那么这个模型可以改写成:
函数图像为:
横轴是z,纵轴是y,一个多维的x经过这样两次映射,最后投射在y上是一个取值只有1和0的二项分布。
**分类:**分类算法又叫做“分类器”。我们可以将“分类器”想象一个黑盒子,有个入口,有个出口。我们在“入口”丢进去一张老虎的照片,在“出口”得到“老虎”这样的一个描述标签;而当我们在“入口”丢进去一张飞机的照片,在“出口”得到飞机这样一个描述标签,这就是分类器最为基本的分类工作过程。