有监督学习(Supervised Learning):
我们有一个数据集,如果我们的每一个单一的数据根据它的特征向量我们要去判断它的标签(算法的输出值),那么就是有监督学习。
有监督学习,分为两个大类:
1.回归分析(Regression Analysis):回归分析,其数据集是给定一个函数它的一些坐标点,然后通过算法,来估计原函数的模型。然后你输入一个自变量它就会根据这个模型输出一个因变量。是连续的估计。
2.分类(Classification):其数据集,由特征向量和它们的标签组成,当你学习了这些数据之后,给你一个只知道特征向量不知道标签的数据,让你求它的标签是哪一个?结果是离散的。
无监督学习:
所有数据只有特征向量没有标签,但是可以发现这些数据呈现出聚群的结构,一个类型的会聚集在一起。把这些没有标签的数据分成一个一个组合,就是聚类。比如Google新闻,每天会搜集大量的新闻,然后把它们全部聚类,就会分成几十个不同的组,每个组内新闻都具有相似的内容结构。
无监督学习还有一个典型的例子就是鸡尾酒会问题,在
这个酒会上有两种声音,被两个不同的麦克风在不同的地方接收到,而可以利用无监督学习来分离这两种不同的声音。注意到这里是无监督学习的原因是,事先并不知道这些声音中有哪些种类(这里的种类就是标签的意思)。=——=而且题的代码实现只要一行。
维数灾难:我们的特征向量当然需要比较多的维度,才能更好的区分,但并不是维度越高越好,我们只需要特征最有用的那些维度。维度过高之后,对于固定数据集就会出现每个每种类型的特征向量数据稀疏的情况,而在统计学上数据稀疏意味着估计正确性的降低。
梯度下降(Gradient Descent):
梯度下降是一种迭代算法,该算法从初始点沿着各个维度梯度下降最大的方向前进。
注意:梯度下降的时候每一次更新是同步更新所有的参数。
梯度下降算法的核心是,通过Cost Function上当前点的位置各个维度的切线向量乘以一个固定的值学习速率(le
arning Rate)来预测真实的维度向中心收敛的方向。这里的学习速率,不能太大(会出现无法收敛),也不可太小(收敛速度太慢)。