- 博客(4)
- 收藏
- 关注
原创 (3)TextCNN和TextRNN
终于到了现代一点的模型了,为了整明白这些折腾了很久。很多大佬都是基于图像领域讲解的,但是对于我这种没整过图像的就很难受了。接下来就谈一谈自己对两个模型的理解 TextCNN 这是很著名的cs231n给出的模型图,可以看到CNN有四个层组成 conv:卷积层 就是用一个称之为卷积核的矩阵(滤波器(filter))做内积,就是逐个元素相乘再求和。每一步求出来的是一个值!具体如图 具体看算式。这样就把输入抽象化了 这个矩阵有几个参数,常用的就是深度,步长和填充值。 深度:上图中的conv..
2021-10-26 16:57:21
396
原创 (3)word2vec的那些东西
wrod2vec是对NNLM的一种改进,他去掉了激活层,减少了要训练的参数,效率肯定是提高了很多~一共有两个模型,Skip-gram和CBOW。 CBOW是输入附近的词求中间词,Skip-gram是给中间的词求附近的词。 Skip-gram 这个模型其实与NNLM差不多,只是一个简化而已。不过训练目标改变了。Skip-gram的终极目标不是训练一个准确的输出,而是为了获得隐层的权重矩阵,或者说词向量。这种模型一些人取名为“Fake Task”。就是让输出层只是一个调参的工具人而已。 在了解具体模
2021-10-25 11:03:27
156
原创 (2)NNLM学习记录
NNLM是最早应用于NLP的深度学习模型,可以看到之前总结词袋模型的一些影子。作为开山之作,有必要学习一下。 首先上图 给出一组词序列w1 ···wT,w t ∈ V w_t∈V。V是一个词向量集合。模型目标是训练如下的模型:。 接下来说人话: 1、模型输入是one-hot类型,维度根据输入的文本字的数量决定,比如有300个字就有300维。输入的数量是超参数,也就是窗口。如果我窗口大小为2,则模型就希望输入两个字来预测第三个字。那么第三个字总要有个范围吧?所以引进了一个词库D,里面包含了所有
2021-10-23 22:13:45
137
原创 (1)从One-hot到Word2vec
因项目需要,重新捡起来NLP进行学习。感觉NLP经过长时间发展在各个领域出现了大量效果好的模型。为了梳理一下思路,特地写博客记录,以便以后复习。 词袋模型 one-hot 中文是独热编码,至于为啥叫这个我也不太懂。不过表现形式还是很简单的。 我们有一个字典表示每个词的索引,比如说: dic=[‘我‘:'1','苹果','2','想吃':'3'] “我想吃苹果” 这句话中每个词都可以表示成: 我:[1,0,0] 想吃:[0,0,1] 苹果:[0,1,0] 这样就把每个词变成了电脑能看懂的东
2021-10-23 20:38:07
675
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人