自然语言处理
Tingsie
这个作者很懒,什么都没留下…
展开
-
bert和他的家人
albert轻量级bert,参数量减少,跨层的参数共享,每一个Trm共享参数; bert中每一个Trm的参数是不共享的中文分词多用结巴分词bert-wwm (中文)可以对所有的词语进行maskerine (中文) 只能 mask实体feature-based :预训练获得的模型参数在下游任务中不会进行调整fine-tuning : 预训练获得的模型参数在下游任务中进行微调...原创 2020-10-16 11:50:44 · 86 阅读 · 0 评论 -
roberta
roberta的准备工作转载 2020-08-21 19:28:17 · 691 阅读 · 0 评论 -
ELMO、BERT、ERNIE、GPT
word embedding是根据词汇的上下文训练出来的词向量的每一个维度代表了这个词的某些信息用word embedding 当做某一个词汇的feature在传统的embedding中,不同的word tokens只要属于同一个word type,那它们的word embedding就是一样的(即它们的vector是一样的),换句话说每一个word type对应一个embedding。这样有很多不足,因为属于同一个word type的不同的word tokens可能有不同的语义。现在,我们希望.原创 2020-08-15 15:54:48 · 432 阅读 · 0 评论 -
transformer--变形金刚
bert就是无监督训练的transformertransformer :seq2seq model with “self-attention”单向的RNN:在输出b4的时候,已经看了a1~a4在输出b3的时候,已经看了a1~a3双向的RNN:在输出每一个bi的时候,已经看了a1~a4RNN的优点:可以考虑到长距离的依赖RNN的缺点:不能实现并行化也可以用CNN来处理序列数据,图中每一个三角代表一个filterCNN的优点:如果想要考虑长距离依赖,需要叠加多层filterCNN的优原创 2020-08-15 09:32:36 · 833 阅读 · 0 评论 -
关于attention的一些事儿
soft attention机制可以起到对齐的作用。比如对于机器翻译来说,本质上是目标语单词和源语单词之间的一种单词对齐机制。self attention机制Self Attention也经常被称为intra Attention(内部Attention)。 在一般任务的Encoder-Decoder框架中,输入Source和输出Target内容是不一样的,比如对于英-中机器翻译来说,Source是英文句子,Target是对应的翻译出的中文句子,Attention机制发生在Target的元素Query和转载 2020-08-11 22:26:25 · 162 阅读 · 0 评论 -
NLP的一些知识
NLP的一些知识EmbeddingEmbedding 是一个将离散变量转为连续向量表示的一个方式。在神经网络中,embedding 是非常有用的,因为它不光可以减少离散变量的空间维数,同时还可以有意义的表示该变量。分词分词(Segment):中英文都存在分词的问题,不过相对来说,英文单词与单词之间本来就有空格进行分割,所以处理起来相对方便。但是中文书写是没有分隔符的,所以分词的问题就比较突出。分词常用的手段可以是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。另外就是当下主流的统计原创 2020-08-05 10:34:16 · 464 阅读 · 0 评论