- 博客(14)
- 收藏
- 关注
原创 W2NER学习
使用bert生成word pieces的向量表示,通过最大池化将几个word pieces的向量归一得到word的向量,之后接一层双向LSTM得到最后的word向量。前3种方法都没办法实现三种实体类型的统一识别,第四种方式虽然实现了三种实体类型的统一识别,但仍然存在片段长度受限和计算复杂性高的问题。在解码时使用NNW用于构建词语关联关系,使用THW得到词语的边界和实体类型,通过两种标签体系结合实现对不同类型的实体正确识别。表示对应的实体类型(用于识别实体边界和实体类型)4.基于片段(span-based)
2023-04-18 21:51:36 353
原创 ELECTRA学习记录
和判别器共享embedding层的权重。论文中经过比较,共享权重比不共享权重性能有所提高,但是当生成器层尺寸和判别器的层尺寸相同时会导致判别器难以学习,所以最终只共享embedding的权重。整个训练结构为模仿gan的结构,由一个生成器和一个判别器组成,最后在下游任务使用时,通过对判别器进行fine-tuning得到。可见「隔离式」的训练策略效果还是最好的,而两段式的训练虽然弱一些,作者猜测是生成器太强了导致判别任务难度增大,但最终效果也比 BERT 本身要强,进一步证明了判别式预训练的效果。
2023-04-16 22:24:35 140
原创 知识蒸馏简单介绍
在自然语言领域中,自bert伊始,预训练模型变得越来越大。大的预训练模型在离线测评时通常有着良好的结果,但是对于线上的时效要求往往难以满足。因此,发展出了权重剪枝(Weight Pruning),量化(Quantization),知识蒸馏(Knowledge Distillation)这些技术来减少模型的大小,提高模型的运行效率。本文将从模型训练和损失函数两个角度去简单介绍下几种不同的知识蒸馏方法。知识蒸馏是指将知识从一个复杂的模型压缩进入一个更小的模型的方法。EDL。
2023-04-16 22:15:35 487
原创 LSTM发展介绍
lstm是目前比较常见的一种rnn结构,多用于处理序列数据。然而最初的lstm和我们目前使用到的lstm有不小的差别,下面具体介绍下lstm是如何一步一步变成现在的样子。
2023-04-16 22:07:38 584
原创 GhostNet学习
在这篇论文中提出了一个ghost模块,可以通过廉价操作来生成更多的特征图。作者认为,在现有的cnn模型中,会包含丰富的冗余信息,即一些特征图可以由其它特征图廉价操作(线性变换)得到。首先论文中介绍了Ghost Module,通过普通卷积得到m个通道的特征,通过对这m个通道做可分离的线性变换,我们可以得到。在本文中有两种ghost block结构,一种为步长为1,一种为步长为2.两种block的结构分别如下如所示。其中在步长等于2时,shortcut通过一个步长为2的深度可分离卷积进行降维计算。
2023-04-16 22:05:37 117
原创 DS-ResNet
此处通过使用深度可分离卷积有效降低模型的参数量,在模型中有两处使用了深度可分离卷积,一处是类似resnet的残差模块DS-conv block,此处为两层深度可分离卷积堆叠而成。可知,DS-resnet中使用的恒等映射为ReLU before addition,模型准确率弱于full pre-activation,所以可以将映射方式改为full pre-activation。在block中的point-conv的输出通道全部为64,depth-conv的卷积核为。此处的depth-Conv卷积核为。
2023-04-16 22:01:34 172
原创 pydub使用记录
我们常说128K的MP3,对应的WAV的参数,就是这个1411.2 Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。实际中,人发出的声音信号为模拟信号,想要在实际中处理必须为数字信号,即采用采样、量化、编码的处理方案。
2023-04-16 21:55:46 642
原创 mermaid使用记录
声明好流程图后就是绘制节点了,如下直接输入即可定义节点(输入可以是英文,中文或者数字),如果节点没有输入文本,则节点文本为节点名称。也可以在连线上添加文本内容,一种是在连线的标识符中直接添加文本,在标识符中的第二个后添加文本,添加完成后继续使连接一个完整的连线标识符.另外一种是在连线标识符后添加双竖线,在其中添加文本。**注意:**官方文档表示在连接中一次性声明多个节点(使用符号&),但在typora中会报错无法显示。其中各个括号中的元素分别表示:样式风格生效的边,边的颜色,边的宽度,边中文字的颜色。
2023-04-16 21:53:41 363
原创 模型校准方法介绍
在神经网络模型的应用中经常遇到指定准确率或者召回率的情况,大家都希望可以不调整模型,只调整阈值就满足指定准确率或者召回率,但是有时调整阈值时可以发现,当我们把阈值从0.5调整为0.6,0.7,0.8,0.9时,会发现模型准确率提高并没有按照线性提升。因此本文中的模型校准是指将模型的预测概率和真实置信度之间的差距缩小,并不会改变模型本身的精度,只是会使其更容易使用。在测试时,我们会得到一个校准概率的向量。)方法的背景,为了简单,我们默认模型的输出是正例的置信概率,由此我们可以使用下列方式表示整个模型。
2023-04-16 21:51:17 2165
原创 Toolformer学习
是meta ai在23年2月发表的论文,主要提出了一种新方法,可以教导大语言模型通过调用api来使用扩展工具。这个方法首先通过自监督的方法构建了一个包含扩展工具调用的语料库,再结合扩展预料库和原始语料库通过fine-tune的方式训练语言模型。
2023-04-16 21:48:27 382
原创 seq2seq发展介绍
seq2seq发展介绍因为seq2seq相关介绍博客很多,之前只是通过博客学习,一直没有读过相关论文。虽然通过博客对seq2seq大体框架有所了解,但是对于实现细节和发展并不是很清楚。近日在学习copynet时看到使用了seq2seq作为模型的主体框架,便借此机会对细节发展进行详细了解。传统的rnn对于输入一个字符预测一个字符这种情况有着不错的使用效果,但对于翻译任务而言,源句子和目标句子常常并不有着相同长度。在这种情况下,传统的rnn将难以胜任,为了解决这个问题,在Learning Phrase Re
2021-10-14 21:53:51 848
原创 RocketQA学习
RocketQA学习paper本文为2020年百度提出的一种用于针对对偶式检索问答模型的工程优化RocketQA。在本文中提出了三种优化方法,来提高在实际中对偶式模型的效果。包括:跨批次负采样,困难样本去噪以及数据增强训练。在传统的检索问答模型中,通常使用tfidf,或者bm25这种稀疏向量进行候选项检索,再使用交互模型进行最终结果排序。针对传统的检索问答模型中的检索和排序问题,通过使用对偶式的深度学习模型来实现替换。原文认为通过这样的端到端方式实现检索和排序,降低了系统的复杂性,同时可以让模型基于用
2020-10-22 20:45:37 2236 1
原创 Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning学习记录
T-TAFast and Accurate Deep Bidirectional Language Representations for Unsupervised Learningcode这是一篇ACL2020的论文,主要内容是对bert的预训练任务MLM进行改进。传统的bert中使用的MLM任务每次只能遮蔽(mask)15%的字符,导致训练时效率不高。本文通过对transformer中的QKV进行了改造,使得训练时每次可以预测全部的token,并且不需要额外的[MASK][MASK]符号,实现了预
2020-09-07 21:52:46 427
原创 SpellGCN学习
SpellGCN: Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Checkpapercode这个是2020年蚂蚁金服在ACL上的一篇论文,主要思路是使用GCN将发音和形状相似的字符的嵌入向量进行融合,然后使用bert作为基模型进行字符级别的分类,最后使用softmax进行目标字符预测。模型整体由两个模块组成,模块一为SpellGCN,模块二为抽取模型(满足输入
2020-09-07 21:39:33 2896 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人