赴秦皇岛东大第一天

训练集以及测试集
第一步:找一个function。 第二步:衡量一个function是不是好的。 第三步:训练一个自动方法有一个好的演算法,挑一个更好的function
主要是学习思路
regression:回归 就是能够预测出一个值的模型
classification:分类
deep learning
svm:向量机
transfer learining:迁徙学习
Unsupervised learning:一般来说,比较直观的解释,supervised learning(监督学习)就是在人的监督下学习,数据有label,学习数据结构和label之间的关系;unsupervised learning(无监督学习)就是不需要人的监督就可以学习,数据没有label,需要根据数据自身结构特性来将数据分类;semi-supervised learning (半监督学习)就是有label,但是不全。举个例子,你妈教你 猪是猪,牛是牛,这就是监督学习;你妈如果不想教你,你也能通过观察知道猪和牛长的不一样,尽管不知道它们是什么,这是无监督学习。半监督学习就是,你妈教完你猪和羊(监督学习)就不想教了,剩下的动物你得自己学,不管你后面是准备通过请教别人(监督学习)还是自己观察(无监督学习)。

对于supervised learning 和 semi-supervised learning, 之间把算法当作黑盒子,给它input和output,它建立模型告诉我们关联就可以;但是对于unsupervised learning, 问题就来了。我们没有这种明确的目的,要分类,我们也没有output labels. 最重要的是,我们不知道数据自身可不可具有一定的特征,从而借助这些特征把数据分类。根据我的machine learning使用经验,在不知道模型能不能建起来,performance好不好的之前,先问问自己,使用人的经验能不能把数据聚类。这就涉及到机器学习的本质了。

什么是机器学习,很多人理解成是找关系。对,是找关系;可关系是什么呢?关系的建立基于什么呢?个人的理解,机器学习的本质,其实就是对人的经验的利用。这就意味着,你要想算法work,人的经验先应该基本上可以work,最起码这个问题可以用机器学习来解决;还有,人的经验利用,本质就是准确的列出可能的关联因素,加以分析确定主要因素,所以要想模型有用,你还得选出具有代表性的潜在features. 跑题说一下,深度学习的股票预测, 至今不能work,不是说深度模型不好,而是说,模型有了,你能把潜在因素包含进去吗?正所谓巧妇难为无米之炊,没有米,饭自然下不了。

扯远了,那什么样的数据类型,能用unsupervised learning呢?总结上段文章的分析,1.这个数据要可以根据人的经验,能基本聚类,而不是看起来毫无章法。这谈的是feasibility。 2,含有潜在的pattern,不管它是implicit的被提到,还是explicit被提到,最起码包含一下具有区分度的pattern。这谈的是performance。

总而言之,无监督学习的本质就是,对于各种数据,我虽然不知道你讲的是什么,但是我知道你们讲的是相似的东西,还是不同的东西。实现好的performance的无监督学习,不仅仅是数据质量问题,而是遗忘问题,就是有效的忘掉一些不具有区分度的特征,记住有区分度的特征。

关于使用无监督学习的例子,可以看我的一篇文章(如下), 主要讲的是用LDA来无监督的辨别网上评论,是消极态度还是积极态度的。目的是为了选取评价好的网上视频,给机器人看,从而学会简单的手术操作。
reinforcement learning:强化学习
scenario:场景 task:任务 method:方法

Regression:输出一个标量
linear model:y=b+wixi
loss function:损失函数
损失函数

Gradient Descent:梯度下降
overfitting:过拟合
regularization:用正规化解决过拟合
smoother:平滑
Bias and Variance of Estimator:估计值的偏差和方差
parallel universes:平行宇宙
cross validation:交叉验证在这里插入图片描述在这里插入图片描述
机器学习之半监督学习(Semi-supervised learning)
什么是半监督学习?既有有标记数据 xr,又有无标记数据 xu,一般无标记数据的数量远大于有标记数据。半监督学习又可以分为两种:
Transductive learning:无标记数据就是Testing data.
Inductive learning:无标记数据不是 testing data,假设在训练时不知道 testing set.

为什么要用半监督学习(Semi-supervised learning)?
因为收集数据比较容易,但是收集label数据的代价却很昂贵。半监督学习下的 generative model

为了更直观的了解半监督学习下的生成模型,我们先介绍一下全监督学习下的生成模型,好让大家有个对比。
全监督学习下的生成模型

首先,估计 prior probability P(Ci),再估计出每一类有标记数据的分布 P(x|Ci),假设数据的分布为共用协方差矩阵的高斯分布,因此只需要估计出

就行,之后就可以估计某个数据属于某一类的概率了,计算公式如下:

半监督学习下的生成模型

前面部分与监督学习的操作一样,先使用有监督的数据估计出 P(Ci)、μi 和 Σ,接下来使用未标记的数据 xu 来对这些参数重新估计,以二分类问题为例,估计过程主要分为如下两个步骤:
初始化 θ={P(C1),P(C2),μ1,μ2,Σ},(可以随机初始化,也可以根据已有的标记数据估计出来)。
step1:根据初始化的参数计算无标记数据的后验概率Pθ(C1|xu) 。
step2:更新模型参数:

接着再返回step1,直到参数收敛为止。
其实上面这个过程,我们用到了再机器学习领域一个超级NB的算法的思想,它就是EM(Expectation-maximization),step1就是 E,step2就是 M. 这样反复下去,在最终一定会收敛.
半监督学习之低密度分离假设(Low-density Separation)

在用这个假设的时候,需要假设有一个很明显的区域(Low-density),能够把数据分开。Self-training
先对有标记数据训练出一个模型f*,这个可以模型可以用任何方法训练。
用这个 f∗ 来预测无标记的数据,预测出的就叫 pseudo label.
接下来,就用无标记数据中拿出一部分数据,放到有标记数据中,怎么选出这部分是自己定的,也可以对每一个数据提供一个权重。新加入了这些数据之后,就可以再重新训练一个 f∗,往复进行。
这招用在 regression 中,是没有用的,因为用预测出来的数字重新用来做训练,并不会影响模型的参数。
在做 self-training 时,其实就是把某个未标记数据指定一个分类,而在 generative model 中,其实就是把未标记数据对应于各个分类的概率计算出来。
基于熵的正则化(Entropy-based Regularization)

假如未标记数据数据 xu 经过某一组参数估计后属于某一类的概率如下:

又边红圈中的公式为熵的计算公式。由上图可知 xu 属于某一类的概率越大,熵的值E就越小,因此重新定义损失函数

,其中E(yu)可以微分,我们可以直接用梯度下降法来求解。

Semi-supervised SVM

将未标记数据穷举所有的分法,然后对每一种分法都进行 SVM,具有最大的间隔和最小误差的那一种。
但是,如果有 10000 个未标记数据,那么就会有 210000 种分法来穷举,Transductive Inference for Text Classification using Support Vector Machines 中提出的解决办法是,每次只改一个数据,看一下能否让间距变大,变大了就改。
平滑假设(smoothness assumption)

做出如下假设:
x的分布不均匀,在有些地方集中,有些地方分散,若x1和x2在一个high density region内很接近,那么 y^1 就与 y^2 相同,那么什么是high density region呢?请看下图:

在图中,虽然x2与x3比较接近,但是x1与x2在同一块high density region,所以 y^1 与 y^2 相同,y^2 与 y32 不相同。
基于图的方法(Graph-based Approach)

首先需要定义相似度,一般可以用 Gaussian Radial Basis Function (RBF) 来定义:

,这个函数可以让相似度随着距离的增加而迅速减小。

定义完相似度之后,就可以逐渐把数据点之间相连的边加上去,加边可以用 kNN 或者 e-Neighborhood 的方法来做。然后设置边的权重,和 s(xi,xj) 成比例。
然后,定义在图上的标记的平滑因子(smoothness)S:

,该式可以写成

y 是 R+U 维的向量(所有的有标记和无标记数据),L=D−W,W 是所有数据之间两两的连接权重,D 是对角矩阵,对角线上的值是每个数据点所有的连接的权重之和。之后,就可以定义出 loss function:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值