自然语言处理
文章平均质量分 64
WindyChanChan
本人才华有限,在线征集简介
展开
-
自然语言处理应用:开放文本域的实体关系抽取
【代码】自然语言处理应用:开放文本域的实体关系抽取。原创 2024-03-23 21:35:10 · 150 阅读 · 0 评论 -
Sora背后的关键技术
Sora量大核心技术Spacetime Patch(时空Patch)Patch可以理解为Sora的基本单元,就像GPT-4的基本单元是Token。Token是文字的片段,Patch则是视频的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,可以处理一系列的Patch,并预测出序列中的下一个Patch。Sora通过Spacetime Patch将视频视为补丁序列,Sora保持了原始的宽高比和分辨率,类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至原创 2024-02-28 20:52:41 · 442 阅读 · 0 评论 -
自然语言处理阅读第三弹
对于每个任务,都有一个特定的前缀被添加到输入序列的开始部分。这些前缀相当于任务特定的提示,可以是一组固定的词或是可训练的嵌入向量。同时,为了防止直接更新Prefix的参数导致训练不稳定和性能下降的情况,在Prefix层前面加了MLP结构,训练完成后,只保留Prefix的参数。:该方法可以看作是Prefix Tuning的简化版本,它给每个任务定义了自己的Prompt,然后拼接到数据上作为输入,但只在输入层加入prompt tokens,并且不需要加入 MLP 进行调整来解决难训练的问题。原创 2023-12-22 21:18:32 · 1291 阅读 · 1 评论 -
自然语言处理阅读第二弹
HuggingFace镜像网站模型库HuggingFace中bert实现下游任务介绍重要源码解读NLP中的自回归模型和自编码模型自回归:根据上文内容预测下一个可能的单词,或者根据下文预测上一个可能的单词。只能利用上文或者下文的信息,不能同时利用上文和下文的信息。自编码:对输入的句子随机Mask其中的单词,然后预训练过程的主要任务之一是根据上下文单词来预测这些被Mask掉的单词。同时根据上下文预测单词。Sequence-to-Sequence:是encoder和decoder的结合原创 2023-12-17 21:10:23 · 1079 阅读 · 0 评论 -
自然语言处理阅读第一弹
Masked Language Model:将输入句子中的某些token随机替换为[MASK],然后基于上下文预测这些被替换的token。学习局部语义和上下文依赖关系。这有助于BERT理解每个词的表达。Next Sentence Prediction:给定一对句子A和B,判断B是否是A的下一句。这可以学习句子之间的关系,捕获上下文信息,有助于BERT在文档层面上理解语言。原创 2023-12-15 20:31:33 · 532 阅读 · 0 评论