自然语言处理
文章平均质量分 91
雾里闹
这个作者很懒,什么都没留下…
展开
-
W2NER学习
使用bert生成word pieces的向量表示,通过最大池化将几个word pieces的向量归一得到word的向量,之后接一层双向LSTM得到最后的word向量。前3种方法都没办法实现三种实体类型的统一识别,第四种方式虽然实现了三种实体类型的统一识别,但仍然存在片段长度受限和计算复杂性高的问题。在解码时使用NNW用于构建词语关联关系,使用THW得到词语的边界和实体类型,通过两种标签体系结合实现对不同类型的实体正确识别。表示对应的实体类型(用于识别实体边界和实体类型)4.基于片段(span-based)原创 2023-04-18 21:51:36 · 300 阅读 · 0 评论 -
ELECTRA学习记录
和判别器共享embedding层的权重。论文中经过比较,共享权重比不共享权重性能有所提高,但是当生成器层尺寸和判别器的层尺寸相同时会导致判别器难以学习,所以最终只共享embedding的权重。整个训练结构为模仿gan的结构,由一个生成器和一个判别器组成,最后在下游任务使用时,通过对判别器进行fine-tuning得到。可见「隔离式」的训练策略效果还是最好的,而两段式的训练虽然弱一些,作者猜测是生成器太强了导致判别任务难度增大,但最终效果也比 BERT 本身要强,进一步证明了判别式预训练的效果。原创 2023-04-16 22:24:35 · 111 阅读 · 0 评论 -
LSTM发展介绍
lstm是目前比较常见的一种rnn结构,多用于处理序列数据。然而最初的lstm和我们目前使用到的lstm有不小的差别,下面具体介绍下lstm是如何一步一步变成现在的样子。原创 2023-04-16 22:07:38 · 499 阅读 · 0 评论 -
Toolformer学习
是meta ai在23年2月发表的论文,主要提出了一种新方法,可以教导大语言模型通过调用api来使用扩展工具。这个方法首先通过自监督的方法构建了一个包含扩展工具调用的语料库,再结合扩展预料库和原始语料库通过fine-tune的方式训练语言模型。原创 2023-04-16 21:48:27 · 296 阅读 · 0 评论 -
seq2seq发展介绍
seq2seq发展介绍因为seq2seq相关介绍博客很多,之前只是通过博客学习,一直没有读过相关论文。虽然通过博客对seq2seq大体框架有所了解,但是对于实现细节和发展并不是很清楚。近日在学习copynet时看到使用了seq2seq作为模型的主体框架,便借此机会对细节发展进行详细了解。传统的rnn对于输入一个字符预测一个字符这种情况有着不错的使用效果,但对于翻译任务而言,源句子和目标句子常常并不有着相同长度。在这种情况下,传统的rnn将难以胜任,为了解决这个问题,在Learning Phrase Re原创 2021-10-14 21:53:51 · 794 阅读 · 0 评论