nlp
文章平均质量分 55
真炎破天
这个作者很懒,什么都没留下…
展开
-
Transformers代码笔记系列2(GenerationMixin生成模块)
应用实例(添加transformers代码)参数介绍input_ids:对于encoder-decoder模型(例如:T5),input_ids用于encoder输入,生成encoder_outputs特征;对于decoder模型(例如:GPT3),input_ids用于提示词,如果input_ids为None,则初始化为bos_token_iddecoder_input_ids:用于encoder-decoder模型中decoder模块的输入...原创 2021-12-17 17:58:20 · 2347 阅读 · 0 评论 -
Transformers代码笔记系列1(T5 model)
重要参数注释past_key_value: 只有Decoder模型在文本生成过程(训练过程用不上)中才能用到。顾名思义,它存储的是Decoder模型在t时刻前输入的token对应的key和value映射,用于减少计算,将input在Wk、Wv上的映射存储起来,进行下一个词预测时,就可以直接拿过来用了。它包括self_attention和cross_attention对应的key、value映射。单个key或者value单元shape:【batch_size, n_heads, q_len-1, dim_原创 2021-12-16 15:58:29 · 2191 阅读 · 0 评论 -
NER相关技术
实体词典匹配优点:缺点模型原理优点:缺点:模型蒸馏Teacher Model:BERTStudent Model:BiLSTM(unit一般为512为佳,也可以尝试1024或者256)蒸馏方式:logits学习+增强学习(此处,logits可以是经过CRF层的也可以是不经过CRF层的,采用的损失函数是均方误差MSE。如果采用未经CRF层的logits进行拟合学习,则student可以复用teacher模型的CRF层,效果达到最佳。CRF输出根据解码方式不同,输出结果也不同,如果采用vite原创 2021-12-06 11:30:49 · 292 阅读 · 0 评论 -
相似文本聚类
聚类方法评价指标实际应用原创 2021-11-24 10:10:36 · 976 阅读 · 0 评论 -
triton-inference-server使用笔记
参考教程https://github.com/triton-inference-server/server/tree/r21.09安装服务端采用容器部署:docker pull nvcr.io/nvidia/tritonserver:21.09-py3客户端:???Model RepositoryModel Repository 是用于存放模型及配置文件的文件夹,其格式如下:回家补上重点:Model Repository下的每个子文件分别代表一个服务,在url服务请求时,当前文件名为其路原创 2021-11-06 17:24:13 · 2183 阅读 · 0 评论 -
文本生成相关的评测指标
一、文本生成相关任务翻译对话生成自动文摘image2caption二、文本生成评测指标BLEURougeNISTMETEORTER2.1 BLUE2.2 Rougereferencehttps://zhuanlan.zhihu.com/p/150057895原创 2021-09-26 10:49:42 · 665 阅读 · 0 评论 -
理解损失函数
常用损失函数:CE 交叉熵MSE 均方差KL散度问题一:模型蒸馏,对logits拟合为什么用CE而不用MSE之所以使用soft label而不是hard label进行蒸馏,是因为soft label中包含了较hard label更丰富的信息,即类内关系和类间关系都可以通过soft label进行体现。目前的大部分蒸馏loss的设计主要借鉴Hinton之前的"知识蒸馏"中的做法,即softmax + cross entropy,对logits进行蒸馏;还可以使用超参温度对softmax的输原创 2021-09-22 23:13:35 · 838 阅读 · 0 评论 -
NLP-pytorch学习笔记
padding设置存在2种设置方式:采用attention_mask对padding处的token进行mask在nn.Embedding中设置padding_ids为pad_token_id, 此时,对应padding_ids的embedding vector 在训练时不会进行更新。cross_entropyignore_index表示计算交叉熵时,自动忽略的标签值,默认为 -100...原创 2021-09-15 14:26:51 · 211 阅读 · 0 评论 -
pytorch-lightning使用笔记
tips汇总在DataLoader中采用多进程,进程数一般满足:num_worker = 4 * num_GPUPin memory使用。原因是部分显存被预留,不能被使用。使能Pin memory可以避免这种情况。等效torch中的torch.cuda.empty_cache()data_loader = DataLoader(dataset, num_workers=8, pin_memory=True)避免tensor从CPU转移到GPU不提倡调用.item(), .numpy(),原创 2021-08-25 15:42:43 · 719 阅读 · 0 评论 -
多模型运行冲突问题
g1 = tf.Graph()sess1 = tf.Session(graph=g1)tf.Session 的注释If no graph argument is specified when constructing the session,the default graph will be launched in the session. If you areusing more than one graph (created with tf.Graph() in the sameproc原创 2020-06-30 12:05:03 · 397 阅读 · 0 评论