NLP
At_a_lost
在读研究生,机器学习,深度学习,自然语言处理。
展开
-
深入理解GloVe
在读本文前默认读者已经懂得了词向量的基本常识。GloVe瞄准的是word2vec的缺点,我们知道word2vec进行训练词向量时只考虑了窗口内的单词,对于窗口外的词则没有考虑到,GloVe通过构建共现矩阵的方式使得训练词向量时考虑了全局信息,同时GloVe的训练没有采用神经网络,而是计算共现矩阵,使得训练的速度更快,适合大规模语料。GloVe模型分两步:1.构建共现矩阵;2.构建损失函数并训练直接举例子:假如语料库中有N个单词,则共现矩阵是一个形状为N*N的二维向量,其中每个元素代表单词x和y共原创 2020-11-27 10:12:10 · 242 阅读 · 0 评论 -
分类问题中类别加权和样本加权
分类问题中常常会用到类别和样本加权,具体应用场景如下:类别加权 当样本预测的结果影响不同时,一般会用到类别加权,比如进行癌症的检测,这时我们更期望尽可能的发现真实患有癌症的患者,此时就要对癌症患者的类别进行加权,使得对癌症患者进行预测时的结果对损失函数造成更大的影响。样本加权 与上述同理,样本加权指的是我们对一些样本有99%概率知道他是正样本或者负样本,而另外一些样本我们有80%概率知道他是正负样本,这个时候样本的权重就要进行修改,把99%概率的样本的权重设置要比...原创 2020-11-05 16:10:24 · 35055 阅读 · 1 评论 -
Attention机制与Self-Attention机制的区别
本文主要讲解Attention机制与Self-Attention机制的区别,默认读者已经了解过Attention、Self-Attention、Transformer、seq2seq model。 传统的Attention机制在一般任务的Encoder-Decoder model中,输入Source和输出Target内容是不一样的,比如对于英-中机器翻译来说,Source是英文句子,Target是对应的翻译出的中文句子,Attention机制发生在Target的元素Query和...原创 2020-09-08 15:33:20 · 47214 阅读 · 2 评论 -
大话Seq2Seq模型
Seq2Seq模型虽然具有局限性,但是作为入门级别的Nlper,我们应该深入的了解他,如下图这里encoder和decoder部分我们采用的是传统的RNN,这并不影响我们理解这个模型,你也可以把他看成LSTM或者GRU。以我爱计算机为例进行讲解,开始时我们把“我爱计算机”输入到encoder网络中,这里hi为隐藏状态,oi为RNN的输出,这里一定要注意的是RNN不能进行并行处理,虽然我们是一次性的把文字输入到网络中,但是在处理的时候RNN是把之前的一个文字处理完成之后再处理后面的文字。enco.原创 2020-09-12 15:34:08 · 33120 阅读 · 0 评论