训练softmax分类器实例_CS224N NLP with Deep Learning（四）：Window分类器与神经网络

最新推荐文章于 2024-03-01 21:03:09 发布

weixin_39987138

最新推荐文章于 2024-03-01 21:03:09 发布

阅读量62

点赞数

文章标签：训练softmax分类器实例

Softmax分类器

我们来回顾一下机器学习中的分类问题。首先定义一些符号，假设我们有训练集

，其中

为输入，

为标签，共包括

个样本；

表示第

个样本，是一个

维的向量；

表示第

个样本的标签，它的取值是

个类别的其中一个。对于简单的二分类问题，我们可以用简单的逻辑回归来训练。而对于多分类问题，则可以用OVR (one-vs-rest) 等方法构造多个逻辑回归，或者用更简洁一些的softmax分类器，接下来我们就来介绍一下softmax分类器。设

权重矩阵，那么softmax分类器预测的概率为

其中

表示

的第

行。显然我们希望我们预测的概率分布与真实的分布尽量相似，而在信息论中，KL散度（KL divergence）是一种用来衡量两个分布的差异的方法，那么也就是说我们想让预测分布和真实分布的KL散度最小。对于

，如果用

表示其类别的真实分布，则

，即类

的概率为

，其他类的概率为

。如果我们预测的概率分布为

，则

与

的KL散度为

注意到其中

是一个常数，因此最小化

和

的KL散度相当于最小化

叫做交叉熵（cross entropy）损失函数。由于这里只有

，因此这时交叉熵与负对数似然

等价。接下来我们就通过交叉熵来定义softmax分类器的损失函数

其中

。而在实践中我们通常还要在损失函数中加上一个正则化项来防止过拟合，即

过拟合

通常

是模型中的所有参数组成的向量，这里

是

的所有列向量组成的向量，即

而在更新时，我们需要求

而如果我们需要同时训练词向量的话，我们则需要求

这时其维数达到了

，当词汇量很大时，将会很容易过拟合。那么我们需不需要自己训练词向量呢？我们来看下面的例子。

考虑一个用逻辑回归做单词分类问题。假设我们有预训练的词向量，其中单词“TV”、“telly”和“television”这几个词很接近，此时直接用逻辑回归得到的结果如下

而如果我们的训练集中有“TV”和“telly”，而没有“television”，并且在这个训练集上重新训练词向量的话，那么“TV”和“telly”的词向量就会有一定的偏移，但“television”的词向量却没有变化。即

这显然不是我们想要的结果。那么也就是说需不需要自己训练词向量取决于数据集。如果你只有一个很小的训练集，那么不要自己训练词向量，直接用预训练的词向量效果就会很好；而如果你有充足的训练集，那么自己训练词向量效果可能会更好一些。

Window Classification

对一个单词进行分类的问题并不常见，但是在判断多义词的词义时还是会用到。有些多义词可以同时表达两个相反的意思，比如“to sanction”的含义可能是“to permit”，也可能是“to punish”；“to seed”可能表示“to place seeds”，也可能表示“to remove seeds”。有些多义词则可能表示两个完全不相关的事物，比如“Paris”可能是法国巴黎，也可能是“Paris Hilton”（帕丽斯·希尔顿）；“Hathaway”可能是“Berkshire Hathaway”（伯克希尔·哈撒韦公司），也可能是“Anne Hathaway”（安妮·海瑟薇女神！）。想要判断多义词在文中到底是哪个意思，就需要上下文的帮助。一个简单的方法就是Window Classification，即考虑一定窗口大小内的上下文。

比如一个命名实体识别（Named Entity Recognition, NER）任务，通常是四分类（人名、地名、机构名、None）任务，假设我们判断单词“Paris”，如果选取大小为2的窗口，那么我们需要考虑包括“Paris”在内的五个单词，即