![](https://img-blog.csdnimg.cn/644cb0d94d2b4fda9e29b1fa3d9aed11.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Datawhale 组队学习
文章平均质量分 54
Datawhale 组队学习
薰珞婷紫小亭子
这个作者很懒,什么都没留下…
展开
-
DataWhale 9月份学习笔记六 之BERT应用到下游任务、训练和优化
DataWhale 9月份学习笔记六 之BERT应用到下游任务、训练和优化BERT应用到下游任务一、BERT应用到下游任务结合自己的研究方向,实现BERT进行NER,具体源码可参阅Click Here二、BERT 优化1. BERT 的优化器:AdamW(AdamWeightDecayOptimizer)这一优化器来自 ICLR 2017 的 Best Paper:《Fixing Weight Decay Regularization in Adam》中提出的一种用于修复 Adam 的权重衰减错原创 2021-09-25 23:12:06 · 484 阅读 · 0 评论 -
DataWhale 9月份学习笔记七 之Transformers解决文本分类任务、超参搜索
DataWhale 9月份学习笔记七 之Transformers解决文本分类任务、超参搜索一、微调预训练模型进行文本分类加载数据# -*- coding: utf-8 -*-# @Time : 2021-09-27 9:50# @Author : XAT# @FileName: knowdata.py# @Software: PyCharmimport datasetsimport randomimport pandas as pdfrom IPython.display原创 2021-09-27 15:18:59 · 94 阅读 · 0 评论 -
Datawhale 9月份学习笔记一之 图解Attention
Datawhale 学习笔记一之 图解Attention 学习路径:Attention–>Transformer–>BERT–>NLP Attention 出现的原因:基于循环神经网络(RNN)一类的seq2seq模型,在处理长文本时遇到了挑战,而对长文本中不同位置的信息进行attention有助于提升RNN的模型效果。1. seq2seq框架 seq2seq模型由编码器(Encoder)和解码器(Decoder)组成。以基于RNN的seq2seq 模型,机器翻译任务为例。绿色原创 2021-09-14 22:39:44 · 140 阅读 · 0 评论 -
DataWhale 9月份学习计划表
原创 2021-09-15 21:43:44 · 92 阅读 · 0 评论 -
DataWhale 9月份学习笔记五 之如何实现一个BERT
如何实现一个BERT总体框架1-Tokenization分词-BertTokenizer2-Model-BertModel总体框架1-Tokenization分词-BertTokenizer2-Model-BertModel如上图所示,BertModel 主要为 transformer encoder 结构,包含三个部分:embeddings,即BertEmbeddings类的实体,根据单词符号获取对应的向量表示;encoder,即BertEncoder类的实体;pooler,即BertP原创 2021-09-24 16:20:17 · 287 阅读 · 0 评论 -
Datawhale 9月份学习笔记二之 图解Transformer
Datawhale 9月份学习笔记二之 图解Transformer原创 2021-09-14 22:43:17 · 200 阅读 · 0 评论 -
DataWhale 9月份学习笔记八 之Transformers解决序列标注任务
DataWhale 9月份学习笔记七 之Transformers解决序列标注任务序列标注(token级的分类问题)1.定义序列标注,通常也可以看作是token级别的分类问题:对每一个token进行分类。最常见的token级别分类任务:NER (Named-entity recognition 名词-实体识别) 分辨出文本中的名词和实体 (person人名,organization组织机构名, location地点名…).POS (Part-of-speech tagging词性标注) 根据语原创 2021-09-27 21:56:50 · 276 阅读 · 0 评论 -
DataWhale 9月份学习笔记三 之图解BERT
DataWhale 9月份学习笔记三 之图解BERTBERT具体干了一件什么事情呢?如下图所示,BERT首先在大规模无监督语料上进行预训练,然后在预训练好的参数基础上增加一个与任务相关的神经网络层,并在该任务的数据上进行微调训,最终取得很好的效果。BERT的这个训练过程可以简述为:预训练+微调(finetune),已经成为最近几年最流行的NLP解决方案的范式。一、模型结构BERT模型结构基本上就是Transformer的encoder部分,BERT-base对应的是12层encoder,BERT-原创 2021-09-17 11:01:40 · 829 阅读 · 0 评论 -
DataWhale 9月份学习笔记九 之Transformer解决抽取式问答任务
DataWhale 9月份学习笔记九 之Transformer解决抽取式问答任务原创 2021-09-29 20:03:00 · 110 阅读 · 0 评论 -
DataWhale 9月份学习笔记四 之图解GPT
DataWhale 9月份学习笔记四 之图解GPT一、 二种语言模型1. 自编码(aotu-encoder)语言模型自编码语言模型典型代表就是上一篇所描述的BERT。如下图所示,自编码语言模型通过随机Mask输入的部分单词,然后预训练的目标是预测被Mask的单词,不仅可以融入上文信息,还可以自然的融入下文信息。自编码语言模型的优缺点优点:自然地融入双向语言模型,同时看到被预测单词的上文和下文缺点:训练和预测不一致。训练的时候输入引入了[Mask]标记,但是在预测阶段往往没有这个[Mask]标原创 2021-09-18 17:55:14 · 403 阅读 · 1 评论 -
Datawhale 9月份学习笔记二之 Attention代码实例
关于Attention 的实现过程,写的很清楚,备注也很详细,自己写的时候,出现了些小乌龙,不过解决了,感谢~#!/usr/bin/env python# -*- encoding: utf-8 -*-'''@Filename :Attention.py@Description :@Datatime :2021/09/15 13:58:11@Author :qtxu@Version :v1.0'''import torchimport torch.nn as nnclass M原创 2021-09-15 16:01:23 · 237 阅读 · 0 评论