赴秦皇岛东大第一天

浅笑那些岁月

于 2019-07-16 18:33:16 发布

阅读量85

点赞数

训练集以及测试集
第一步：找一个function。第二步：衡量一个function是不是好的。第三步：训练一个自动方法有一个好的演算法，挑一个更好的function
主要是学习思路
regression：回归就是能够预测出一个值的模型
classification：分类
deep learning
svm：向量机
transfer learining:迁徙学习
Unsupervised learning：一般来说，比较直观的解释，supervised learning（监督学习）就是在人的监督下学习，数据有label，学习数据结构和label之间的关系；unsupervised learning(无监督学习）就是不需要人的监督就可以学习，数据没有label，需要根据数据自身结构特性来将数据分类；semi-supervised learning （半监督学习）就是有label，但是不全。举个例子，你妈教你猪是猪，牛是牛，这就是监督学习；你妈如果不想教你，你也能通过观察知道猪和牛长的不一样，尽管不知道它们是什么，这是无监督学习。半监督学习就是，你妈教完你猪和羊（监督学习）就不想教了，剩下的动物你得自己学，不管你后面是准备通过请教别人（监督学习）还是自己观察（无监督学习）。

对于supervised learning 和 semi-supervised learning, 之间把算法当作黑盒子，给它input和output，它建立模型告诉我们关联就可以；但是对于unsupervised learning, 问题就来了。我们没有这种明确的目的，要分类，我们也没有output labels. 最重要的是，我们不知道数据自身可不可具有一定的特征，从而借助这些特征把数据分类。根据我的machine learning使用经验，在不知道模型能不能建起来，performance好不好的之前，先问问自己，使用人的经验能不能把数据聚类。这就涉及到机器学习的本质了。

什么是机器学习，很多人理解成是找关系。对，是找关系；可关系是什么呢？关系的建立基于什么呢？个人的理解，机器学习的本质，其实就是对人的经验的利用。这就意味着，你要想算法work，人的经验先应该基本上可以work，最起码这个问题可以用机器学习来解决；还有，人的经验利用，本质就是准确的列出可能的关联因素，加以分析确定主要因素，所以要想模型有用，你还得选出具有代表性的潜在features. 跑题说一下，深度学习的股票预测，至今不能work，不是说深度模型不好，而是说，模型有了，你能把潜在因素包含进去吗？正所谓巧妇难为无米之炊，没有米，饭自然下不了。

扯远了，那什么样的数据类型，能用unsupervised learning呢？总结上段文章的分析，1.这个数据要可以根据人的经验，能基本聚类，而不是看起来毫无章法。这谈的是feasibility。 2，含有潜在的pattern，不管它是implicit的被提到，还是explicit被提到，最起码包含一下具有区分度的pattern。这谈的是performance。

总而言之，无监督学习的本质就是，对于各种数据，我虽然不知道你讲的是什么，但是我知道你们讲的是相似的东西，还是不同的东西。实现好的performance的无监督学习，不仅仅是数据质量问题，而是遗忘问题，就是有效的忘掉一些不具有区分度的特征，记住有区分度的特征。

关于使用无监督学习的例子，可以看我的一篇文章(如下）, 主要讲的是用LDA来无监督的辨别网上评论，是消极态度还是积极态度的。目的是为了选取评价好的网上视频，给机器人看，从而学会简单的手术操作。
reinforcement learning：强化学习
scenario：场景 task：任务 method：方法

Regression：输出一个标量
linear model：y=b+wixi
loss function：损失函数

Gradient Descent：梯度下降
overfitting：过拟合
regularization：用正规化解决过拟合
smoother：平滑
Bias and Variance of Estimator：估计值的偏差和方差
parallel universes：平行宇宙
cross validation：交叉验证在这里插入图片描述
机器学习之半监督学习（Semi-supervised learning）
什么是半监督学习？既有有标记数据 xr，又有无标记数据 xu，一般无标记数据的数量远大于有标记数据。半监督学习又可以分为两种：
Transductive learning:无标记数据就是Testing data.
Inductive learning:无标记数据不是 testing data，假设在训练时不知道 testing set.

为什么要用半监督学习（Semi-supervised learning）？
因为收集数据比较容易，但是收集label数据的代价却很昂贵。半监督学习下的 generative model

为了更直观的了解半监督学习下的生成模型，我们先介绍一下全监督学习下的生成模型，好让大家有个对比。
全监督学习下的生成模型

首先，估计 prior probability P(Ci)，再估计出每一类有标记数据的分布 P(x|Ci)，假设数据的分布为共用协方差矩阵的高斯分布，因此只需要估计出

就行，之后就可以估计某个数据属于某一类的概率了，计算公式如下：

半监督学习下的生成模型

前面部分与监督学习的操作一样，先使用有监督的数据估计出 P(Ci)、μi 和 Σ，接下来使用未标记的数据 xu 来对这些参数重新估计，以二分类问题为例，估计过程主要分为如下两个步骤：
初始化 θ={P(C1),P(C2),μ1,μ2,Σ}，（可以随机初始化，也可以根据已有的标记数据估计出来）。
step1：根据初始化的参数计算无标记数据的后验概率Pθ(C1|xu) 。
step2：更新模型参数：

接着再返回step1，直到参数收敛为止。
其实上面这个过程，我们用到了再机器学习领域一个超级NB的算法的思想，它就是EM(Expectation-maximization),step1就是 E，step2就是 M. 这样反复下去，在最终一定会收敛.
半监督学习之低密度分离假设（Low-density Separation）

在用这个假设的时候，需要假设有一个很明显的区域(Low-density),能够把数据分开。Self-training
先对有标记数据训练出一个模型f*,这个可以模型可以用任何方法训练。
用这个 f∗ 来预测无标记的数据，预测出的就叫 pseudo label.
接下来，就用无标记数据中拿出一部分数据，放到有标记数据中，怎么选出这部分是自己定的，也可以对每一个数据提供一个权重。新加入了这些数据之后，就可以再重新训练一个 f∗，往复进行。
这招用在 regression 中，是没有用的，因为用预测出来的数字重新用来做训练，并不会影响模型的参数。
在做 self-training 时，其实就是把某个未标记数据指定一个分类，而在 generative model 中，其实就是把未标记数据对应于各个分类的概率计算出来。
基于熵的正则化(Entropy-based Regularization)

假如未标记数据数据 xu 经过某一组参数估计后属于某一类的概率如下：

又边红圈中的公式为熵的计算公式。由上图可知 xu 属于某一类的概率越大，熵的值E就越小，因此重新定义损失函数

，其中E(yu)可以微分，我们可以直接用梯度下降法来求解。

Semi-supervised SVM

将未标记数据穷举所有的分法，然后对每一种分法都进行 SVM，具有最大的间隔和最小误差的那一种。
但是，如果有 10000 个未标记数据，那么就会有 210000 种分法来穷举，Transductive Inference for Text Classification using Support Vector Machines 中提出的解决办法是，每次只改一个数据，看一下能否让间距变大，变大了就改。
平滑假设(smoothness assumption)

做出如下假设：
x的分布不均匀，在有些地方集中，有些地方分散，若x1和x2在一个high density region内很接近，那么 y^1 就与 y^2 相同，那么什么是high density region呢？请看下图：

在图中，虽然x2与x3比较接近，但是x1与x2在同一块high density region，所以 y^1 与 y^2 相同,y^2 与 y32 不相同。
基于图的方法(Graph-based Approach)

首先需要定义相似度，一般可以用 Gaussian Radial Basis Function (RBF) 来定义：

，这个函数可以让相似度随着距离的增加而迅速减小。

定义完相似度之后，就可以逐渐把数据点之间相连的边加上去，加边可以用 kNN 或者 e-Neighborhood 的方法来做。然后设置边的权重，和 s(xi,xj) 成比例。
然后，定义在图上的标记的平滑因子(smoothness)S:

，该式可以写成

y 是 R+U 维的向量（所有的有标记和无标记数据），L=D−W，W 是所有数据之间两两的连接权重，D 是对角矩阵，对角线上的值是每个数据点所有的连接的权重之和。之后，就可以定义出 loss function: