文献阅读
文章平均质量分 93
yunsaijc
这个作者很懒,什么都没留下…
展开
-
Transformer原文<Attention Is All You Need>阅读笔记
那么这个 attention的输出,就是根据encoder输出和decoder上一子层输出的相似性,来对encoder的输出计算加权和(也就是说把encoder的输出,根据Q想要的东西,把它拎出来)引用-使用Scaled的原因:不缩放的话内积值较大,那么通过softmax之后,大的值就很大,小的值很小(也就是权重的值向softmax的两边靠拢),权重之间的差距变大。但提取序列信息的方式不同。根据不同的Q,去计算这个Q与每个K的相似度,QK相近的时候,相似度会大一些,因此这个K对应的V权重也就大一些。原创 2023-12-11 20:16:27 · 1134 阅读 · 0 评论 -
与PLM有关的知识图谱构建相关文献-阅读笔记
在通过LLM生成T2G的过程中,验证器从LLM获取文本T和输出的图G,并向LLM发送校正信号(例如,“将文本转换为语义图,并将给定的三元组添加到生成的语义图”)。训练验证模块的方法:我们从一个种子数据集开始(包含文本和图的(T, G)对),通过在种子集上随意选取一个图G,并对其中的实体、关系或三元组进行任意的扰动,从而构造成一个图扰动数据集。此外,由于T5的tokenizer和WebNLG数据集的词汇覆盖范围不匹配,WebNLG中的一些字符在T5的词汇表中不存在,在tokenization的过程中被忽略。原创 2023-12-11 20:10:43 · 1314 阅读 · 0 评论 -
综述<A Survey of Large Language Models>阅读笔记
理论与原理:可解释性模型架构:如何构建 LLM 中更高效的 Transformer 变体模型训练:开发更系统、经济的预训练方法模型应用:在实际应用中微调的成本非常高,所以提示已成为使用 LLM 的主要方法。但是,设计提示需要大量人力。自动生成有效提示以解决各种任务将非常有用其次,一些复杂任务(例如形式证明和数值计算)需要特定的知识或逻辑规则,这些规则可能无法用自然语言很好地表达或通过示例演示。因此,开发更具信息量和灵活性的任务格式化方法以进行提示非常重要。原创 2023-12-11 19:46:40 · 863 阅读 · 0 评论