WDK李宏毅学习笔记第四周01_Unpervised Learning

最新推荐文章于 2021-08-31 22:13:44 发布

原来如此-

最新推荐文章于 2021-08-31 22:13:44 发布

阅读量256

点赞数

分类专栏：笔记文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/sunningzhzh/article/details/116486470

版权

笔记专栏收录该内容

36 篇文章 11 订阅

订阅专栏

文章目录

摘要
一、如何用vector表示word
二、如何做Word Embedding
三、Multi-lingual Embedding
四、 Multi-domain Embedding
展望

摘要

本章学到了无监督学习即只需要给机器input，机器就可自己学习，无监督学习的关键就是如何让机器得到合适的word vector，有三种方法分别是1-of-N ENcoding、Word Class、Word Encoding，前两种表示word vector时都会或多或少的丢失word之间的联系，最合适的是Word Encoding。有两种体系可以实现Word Encoding，第一种是Count based，它主要是通过共现矩阵来求得word vector，第二种是Prediction based，它的做法就是将句子的一个或者多个word vector(1-of-N Encoding)作为输入，将这些word的下一个word vector(1-of-N Encoding)作为label，反复迭代进行训练，训练好的model可以预测下一个word。还可以通过这个model间接实现类似翻译、影像分类等功能。

一、如何用vector表示word

1. 1-of-N Encoding

First: 可用1-of-N Encoding(独热码)来表示，如下图，每一个vector的维度，都代表一个word。
1-of-N Encoding有个大的缺点，就是没办法通过vector找到各个word之间的联系。
在这里插入图片描述

2. Word Class

Word Class是建立Class，将相同类型的word放在同一Class中，这样就可解决1-of-N Encoding的部分问题，但是光用Class是不够的，光用Class会丢失一些联系，如下图class1和class3都是属于生物的联系会丢失。
在这里插入图片描述

3. Word Embedding

把每一个word都投映到high dimension space中，这个space每一个dimension可能都有其特别含义，如某个维度代表着会动的和不会动的区别。在Word Embedding中，有联系的Word，距离会比较近，这样就可解决联系丢失的问题了。
在这里插入图片描述

二、如何做Word Embedding

就是让mechine阅读大量的文章，用一定的办法让它就知道每一个word的vector长什么样子，我们没有给它labels，所以这是一个无监督的学习。用什么方法让它知道word 的 vector，有以下两种：

1. Count based

如果word wi和wj经常一起出现，那么就让Vector(wi)和Vector(wj)比较接近。这个方法的原则就是假设N是wi和wj是它们出现在同样document的次数，我们希望找一组Vector(wi)和Vecter(wj)使得它们的内积与N越接近越好。

2. Prediction based

根据前面的一个或者多个word，预测下一个word是什么。它的neural network的input是word的vector，output是某一个word的概率。

2.1 Prediction based—Sharing Parameters

在training时，同时input多组word的vector时，为了减少参数及保证相同的word的vector经过wi，wj的转换后结果相同，所以需要让它们共用w，即wi=wj，为了保证更新参数后wi=wj，在参数更新时，如下图右下角所示：
在这里插入图片描述

2.2. Prediction-based—Training

在Training模型时，把一句话中的一个或多个word的vector作为Input，把这些word的下一个词作为label，如此反复迭代，完成训练，如下图所示，让前两个词”潮水”、”退了”，作为Input，”就”作为label，然后在让”退了”、”就”作为Input，”知道”作为label，反复迭代。
在这里插入图片描述

2.3. Prediction-based—Various Architectures

上面只是Prediction-based最基本的型态，还有种种变形，如下：
CBOW: 拿某一个句子两边的word来predict中间的word。
在这里插入图片描述
Skip-gram: 这个和CBOW相反，是拿句子中间的word来predict周围的word。

三、Multi-lingual Embedding

如果有一个中文和英文的corpros，将它们分别train一组中文的word vector和英文的vector，会发现它两没有任何关系，它们每一个dimension对应的含义是没有关系的，可是如果你将它们的一部分中英文词汇拿出来train一个模型，使得中英文vector对应在同一个space，例如使”加大”对应”enlarge”、”下跌”对应到”fall”等，再用这个模型，就可将corpros中其它的中文vector和英文vector相互对应，就可以实现类似翻译的功能。
在这里插入图片描述

四、 Multi-domain Embedding

这个Embedding不止限于文字，也可以对影像做Embedding，例如，先找一组word vector，比如dog、horse、auto、cat等的vector，这时候我们learning一个model，这个model的input是一张图片，output是一个跟word vector一样维度的vector，这时候我们只需要将一部分图片进行训练使得狗的图片对应dog的word vector，车的图片对应car的word vector这样，这时候，当新的图片加入时，如猫的图片，用以上训练好的model时，会发现输出的vector正好是在cat的word vector周围。这个办法能解决影像分类时mechine很难处理没见过的image的问题。
在这里插入图片描述

展望

本章主要学习了无监督学习的基本原理及一些运用，后续还需要加强代码实现细节方面的理解，如在做Predict based的时候，input 时word的vector是独热码形式的，如果用count based得到的word vector作为Predict based时的word vector效果会是怎样的。