- 博客(11)
- 收藏
- 关注
原创 You Only Cache Once: Decoder-Decoder Architectures for Language Models
键值对:在Transformer模型中,“键”(Key,K)和"值"(Value,V)是注意力机制中的概念,用于计算模型对输入序列中每个元素的关注程度。全局性:在YOCO中,全局KV缓存指的是由自解码器生成的KV对,这些缓存在整个交叉解码器中被共享和重用,而不是在每个解码层重新计算。
2024-06-28 16:35:51
435
原创 CHAIN-OF-KNOWLEDGE: GROUNDING LARGE LANGUAGE MODELS VIA DYNAMIC KNOWLEDGE ADAPTING OVER HETEROGENEOU
在CoK框架中,异构源的使用允许模型从多种类型的数据源中检索和整合知识,以提高对复杂问题的理解和回答的准确性。通过结合这些不同来源的知识,CoK能够生成更加丰富、准确和可靠的推理解释和答案。:如Wikipedia、Wikidata等,它们提供广泛的公共知识,可以被用来支持和验证语言模型生成的信息。:包括图像、视频、音频等多种形式的数据,它们可以提供不同类型的信息,需要特定的处理方法来解析和利用。:针对特定主题或领域的数据源,例如医学文献、科学论文或法律文件,这些数据源包含高度专业化的知识。
2024-06-28 15:41:41
266
原创 斯皮尔曼等级相关系数
斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient)是一种非参数的统计度量,用于评估两个变量之间的单调关系,即它们是否倾向于同时增加或减少,而不考虑它们之间的具体函数形式。
2024-05-22 16:05:46
986
原创 Encoder(编码器)和Decoder(解码器)有什么区别
比如,BERT(Bidirectional Encoder Representations from Transformers)就是仅使用编码器结构的典型例子,它通过预训练来学习文本中单词的深层双向关系,从而获得强大的语言表示能力。编码器的输出可以直接用于各种任务的特征表示,或者通过添加少量的任务特定层来进行微调,以适应特定的NLP任务。总之,即使只有编码器部分,通过强大的上下文理解能力、灵活的应用场景、计算效率以及有效的预训练和微调策略,也可以构建出处理复杂NLP任务的大型模型。
2024-03-20 22:18:18
2454
1
原创 如何微调大模型
微调大模型,尤其是在自然语言处理(NLP)和计算机视觉(CV)领域中使用的预训练深度学习模型,涉及到调整预训练模型以使其适应特定任务的过程。这通常比从头开始训练模型要快得多,也需要更少的数据。
2024-03-20 21:52:44
392
1
原创 CPU、GPU和TPU有什么区别
CPU:适合复杂逻辑处理和多任务处理,是通用计算的核心。GPU:适合大规模并行计算,特别是在图形处理和某些科学计算领域。TPU:专为深度学习设计,提供高效的神经网络计算性能。在选择处理器时,应根据具体的计算需求和应用场景来决定使用哪种类型的处理器。
2024-03-19 10:03:26
991
1
原创 什么是学习率?什么是优化器?
是一个控制模型权重调整幅度的超参数,在机器学习和深度学习中扮演着至关重要的角色。简而言之,学习率决定了在每一次训练迭代中,模型权重更新的步长大小。
2024-03-13 16:43:54
1933
1
原创 对损失函数的理解
损失函数(Loss Function),在机器学习和深度学习中,是用来衡量模型预测值与实际值之间差异的函数。它是一个非负值函数,损失函数的值越小,表示模型的预测结果与真实结果越接近,即模型的性能越好。在训练过程中,目标是通过调整模型参数来最小化损失函数的值。
2024-03-13 16:03:49
388
原创 算力网络的简单理解
算力网络=算力+网络(可以类比:电力网络=电力+网络)电力是一种资源,算力同样也是一种资源。那么我们在研究算力资源时,需要考虑如何生产算力资源生产算力资源生产算力资源,如何分配调度算力资源分配调度算力资源分配调度算力资源。考虑生产算力资源时,我们就需要了解什么是云计算和边缘计算。考虑分配调度算力资源时,我们就需要学习什么是云边协同。
2023-10-10 21:07:52
1150
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人