自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 You Only Cache Once: Decoder-Decoder Architectures for Language Models

键值对:在Transformer模型中,“键”(Key,K)和"值"(Value,V)是注意力机制中的概念,用于计算模型对输入序列中每个元素的关注程度。全局性:在YOCO中,全局KV缓存指的是由自解码器生成的KV对,这些缓存在整个交叉解码器中被共享和重用,而不是在每个解码层重新计算。

2024-06-28 16:35:51 435

原创 CHAIN-OF-KNOWLEDGE: GROUNDING LARGE LANGUAGE MODELS VIA DYNAMIC KNOWLEDGE ADAPTING OVER HETEROGENEOU

在CoK框架中,异构源的使用允许模型从多种类型的数据源中检索和整合知识,以提高对复杂问题的理解和回答的准确性。通过结合这些不同来源的知识,CoK能够生成更加丰富、准确和可靠的推理解释和答案。:如Wikipedia、Wikidata等,它们提供广泛的公共知识,可以被用来支持和验证语言模型生成的信息。:包括图像、视频、音频等多种形式的数据,它们可以提供不同类型的信息,需要特定的处理方法来解析和利用。:针对特定主题或领域的数据源,例如医学文献、科学论文或法律文件,这些数据源包含高度专业化的知识。

2024-06-28 15:41:41 266

原创 斯皮尔曼等级相关系数

斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient)是一种非参数的统计度量,用于评估两个变量之间的单调关系,即它们是否倾向于同时增加或减少,而不考虑它们之间的具体函数形式。

2024-05-22 16:05:46 986

原创 Encoder(编码器)和Decoder(解码器)有什么区别

比如,BERT(Bidirectional Encoder Representations from Transformers)就是仅使用编码器结构的典型例子,它通过预训练来学习文本中单词的深层双向关系,从而获得强大的语言表示能力。编码器的输出可以直接用于各种任务的特征表示,或者通过添加少量的任务特定层来进行微调,以适应特定的NLP任务。总之,即使只有编码器部分,通过强大的上下文理解能力、灵活的应用场景、计算效率以及有效的预训练和微调策略,也可以构建出处理复杂NLP任务的大型模型。

2024-03-20 22:18:18 2454 1

原创 如何微调大模型

微调大模型,尤其是在自然语言处理(NLP)和计算机视觉(CV)领域中使用的预训练深度学习模型,涉及到调整预训练模型以使其适应特定任务的过程。这通常比从头开始训练模型要快得多,也需要更少的数据。

2024-03-20 21:52:44 392 1

原创 CPU、GPU和TPU有什么区别

CPU:适合复杂逻辑处理和多任务处理,是通用计算的核心。GPU:适合大规模并行计算,特别是在图形处理和某些科学计算领域。TPU:专为深度学习设计,提供高效的神经网络计算性能。在选择处理器时,应根据具体的计算需求和应用场景来决定使用哪种类型的处理器。

2024-03-19 10:03:26 991 1

原创 什么是学习率?什么是优化器?

是一个控制模型权重调整幅度的超参数,在机器学习和深度学习中扮演着至关重要的角色。简而言之,学习率决定了在每一次训练迭代中,模型权重更新的步长大小。

2024-03-13 16:43:54 1933 1

原创 模型微调常见参数

在模型微调(Fine-tuning)过程中,我们调整的是模型的参数,以便模型能够更好地适应特定的任务或数据集。

2024-03-13 16:40:14 598

原创 对损失函数的理解

损失函数(Loss Function),在机器学习和深度学习中,是用来衡量模型预测值与实际值之间差异的函数。它是一个非负值函数,损失函数的值越小,表示模型的预测结果与真实结果越接近,即模型的性能越好。在训练过程中,目标是通过调整模型参数来最小化损失函数的值。

2024-03-13 16:03:49 388

原创 pycharm报错the following arguments are required: --model

需要设置参数1、2、

2024-03-04 16:55:32 642

原创 算力网络的简单理解

算力网络=算力+网络(可以类比:电力网络=电力+网络)电力是一种资源,算力同样也是一种资源。那么我们在研究算力资源时,需要考虑如何生产算力资源生产算力资源生产算力资源,如何分配调度算力资源分配调度算力资源分配调度算力资源。考虑生产算力资源时,我们就需要了解什么是云计算和边缘计算。考虑分配调度算力资源时,我们就需要学习什么是云边协同。

2023-10-10 21:07:52 1150 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除