【NLP】自然语言处理
文章平均质量分 88
自然语言处理
Mr.zwX
2019年进入电子科技大学接触计算机(机器学习/深度学习(CV、NLP、GNN)、时空数据挖掘、一点点前后端开发),2022年在电子科技大学实验室科研,2023年在复旦大学NLP组实习,2023年9月至今,在北京大学人工智能研究院科研(模型加速/压缩、隐私计算)...保持努力,anyway,这个平台是我记录一些乱七八糟计算机笔记的地方,供(记性不好的)自己复习,同时也分享给大家。如需联系:请发邮件至wenxuan225@qq.com
展开
-
用huggingface_hub实现优雅快速的HuggingFace模型下载
使用transformers库下载huggingface模型时,会遇到网络无法访问网站的问题。因此,这里记录一种HuggingFace官方提供的命令行工具:huggingface-cli,实现快速的模型下载。原创 2024-08-13 15:15:49 · 570 阅读 · 0 评论 -
用Transformers库实现基础的大模型文本生成以及KV cache注意事项
这个就是标准的自回归生成任务了,不管是GPT还是Llama,都是如此(至少PyTorch版本都是这样的,Flax版本的KV cache有点奇怪,用的lax.dynamic_update_slice(cached_key.value, key, indices),KV cache的维度并没有随着token的生成而增加…根据输入的prompt,生成一段指定长度的文字。Llama跑起来太慢了,这里用GPT-2作为列子。原创 2024-05-14 02:32:58 · 644 阅读 · 2 评论 -
【大模型LLM基础】自回归推理生成的原理以及什么是KV Cache?
通过缓存以前的键(Key)和值(Value),我们可以只关注计算新token的注意力。如下图,每当来一个新的tokenqnewq_{new}qnew时,计算得到新的knewk_{new}knew和vnewv_{new}vnew,并将其拼接(concat)到缓存的KprevK_{prev}Kprev和VprevV_{prev}Vprev中。假设TTT是序列长度,DDD。原创 2024-03-25 18:47:34 · 3200 阅读 · 4 评论 -
【Arxiv 2022】Teaching Broad Reasoning Skills via Decomposition-Guided Contexts
本文用合成上下文来可靠教广泛技能受启发于三点:正是基于上面三项研究结论,本文引入TEABREAC这个教授数据集。Create a teaching dataset: (a) with broad reasoning skills covering a wide range of multihop reasoning patterns; (b) leveraging existing QDMR annotations to carefully construct contexts that require原创 2022-06-08 23:01:53 · 598 阅读 · 1 评论 -
【ICLR 2022】Towards Continual Knowledge Learning of Language Models
Language Models are known to encode world knowledge in model parameters.语言模型被我们熟知,用于在大规模语料库上预训练时编码现实知识到模型参数中。In the real world, the world knowledge stored in the LMs can quickly become outdated as the world changes.在现实世界中,存储在语言模型中的现实知识会很快过时,由于世界在不断变化。It is原创 2022-06-06 23:56:47 · 421 阅读 · 0 评论 -
【ACL 2022】Hallucinated but Factual! Inspecting the Factuality of Hallucinations
Abstractive summarization systems often generate hallucinations; i.e., content that is not directly inferable from the source text/not supported by the source document.普遍存在的问题:抽象摘要常生成幻觉(数据表明30%~的占比),也就是说无法从源文本中直接推断出生成的内容。Previous studies commonly assume t原创 2022-06-06 23:52:25 · 561 阅读 · 0 评论 -
【轻量化深度学习】知识蒸馏与NLP语言模型的结合
Knowledge DistillationStudent : Wenxuan ZengSchool : University of Electronic Science and Technology of China Date : 2022.3.25 - 2022.4.3文章目录Knowledge Distillation1 Knowledge的定义2 Soft targets3 T-Softmax4 知识蒸馏4.1 蒸馏流程4.2 Loss function4.3 预测值匹配是一原创 2022-04-26 16:41:51 · 2571 阅读 · 0 评论 -
【NLP】GPT GPT-2 GPT-3语言模型
一、GPT简介我们说BERT是Transformer的encoder,那么GPT就是Transformer的decoder。GPT全称为Generative Pre-Training。参数量对比:ELMO-94M、BERT-340M、GPT-2-1542M二、GPT原理GPT的原理并不复杂,首我们知道它是基于Transformer的decoder结构。首先,通过自注意力机制,去计算词嵌入之间的attention,然后做weighted-sum,再经过全连接层等,最终得到输出结果。注意:因为这里是T原创 2022-04-19 22:13:27 · 5167 阅读 · 0 评论 -
【NLP】ELMO语言模型
ELMO的全称是Embedding from Language Model,出自Deep contextualized word representations这篇论文。这个模型是RNN-based模型,从大量的句子中进行训练。举个简单的例子,给了一个句子:“潮水 退了 就知道 谁没穿裤子”,那么就要告诉模型输入< BOS >就要输出“潮水”,输入“潮水”就要输出“退了”…如下图所示:通过这样的训练方式,就能将RNN输出的hidden state作为该输入所对应的contextual em原创 2022-04-19 21:38:48 · 588 阅读 · 0 评论 -
【NLP】BERT语言模型
BERT实际上是Transformer的encoder部分,其功能将输入的词向量通过self-attention机制得到输出向量。BERT的训练采用了**自监督(self-supervised learning)**方式,通过一些辅助任务,让BERT能够抽取出最佳的embedding,也就是说让BERT学到最能表征输入的参数。一、自监督学习(self-supervised learning)实际上自监督学习也是一种无监督学习,因为没有标签去学习。但是自监督学习采用了将自身数据拆分为两部分的方式,去训原创 2022-03-25 13:18:17 · 2527 阅读 · 0 评论 -
【NLP】一文理解Self-attention和Transformer
一、自注意力机制(一)序列与模型哪些场景是用向量作为输入呢?首先是词的表示,表示词的方式:One-hot Encoding(词向量很长,并且词之间相互独立)、Word Embedding。然后是语音向量和图(Graph)也是由一堆向量组成。输出可能是什么样的?每个向量对应一个输出标签(一对一的情况,Sequence Labeling)例子:词性标注(POS tagging)、语音、社交网络等等。整个序列只有一个输出的标签例子:文本情感分析(sentiment analysis)、原创 2022-03-13 01:31:27 · 2141 阅读 · 0 评论