大模型
文章平均质量分 82
AndrewPerfect
本博客只用于学习笔记记录,有不对的还望路过的UU们指正。
展开
-
大模型/NLP/算法——LLaMA和别的模型架构有什么区别
综上所述,LLaMA模型架构在设计思想、技术细节和应用场景上均与其他模型存在显著差异。特别是其开源特性和在公共预训练数据上的训练,使得LLaMA易于被其他研究者和开发者使用和改进。在归一化方法上,许多模型采用BatchNorm或LayerNorm,而LLaMA的。,通过旋转变换在复数域中编码位置信息,能够更好地捕捉序列中的相对位置信息。激活函数方面,不同模型可能采用ReLU、GELU等不同的激活函数,往往追求更大的模型规模,认为更大的模型能够带来更好的性能。,增强了模型的表达能力和性能。原创 2024-07-10 18:44:04 · 564 阅读 · 0 评论 -
大模型/NLP/算法——Transformer和Rnn的区别
处理方式RNN 通过递归处理序列,依赖前一个时间步的状态。Transformer 使用自注意力机制并行处理整个序列。训练效率RNN逐步计算,训练速度较慢。并行计算,训练速度较快。捕捉依赖关系RNN 在处理长程依赖时可能遇到困难。Transformer 能够有效捕捉长程依赖。应用场景RNN 主要用于早期的 NLP 任务和时间序列预测。Transformer 广泛用于现代 NLP 任务和预训练语言模型。原创 2024-07-10 18:19:15 · 471 阅读 · 0 评论 -
大模型/NLP/算法——预训练模型是什么?微调的方法?
大模型微调的方法多种多样,每种方法都有其独特的优势和适用场景。在选择微调方法时,需要根据任务的具体性质和需求、计算资源的限制以及模型的特点来综合考虑。同时,由于大型语言模型的复杂性,微调过程可能需要较大的计算资源和时间,因此需要谨慎选择超参数、进行良好的数据预处理和选择适当的评估指标。原创 2024-07-10 18:18:32 · 1243 阅读 · 0 评论 -
大模型/NLP/算法2——transformer流程//多头//clip//对比学习//对比学习损失函数
对比学习(Contrastive Learning)是一种机器学习方法,特别是在无监督学习和自监督学习中广泛应用。其核心思想是通过比较不同样本之间的相似性和差异性来学习数据的表示或特征。这种方法不依赖于标签数据,而是通过样本之间的相互关系,使得模型能够学习到有意义的特征表示。原创 2024-07-09 22:38:00 · 1065 阅读 · 0 评论 -
大模型/NLP/算法4——bert参数量计算
BERT的总参数量可以大致通过加总上述各个组件的参数量来估算。但请注意,具体的参数量还会受到模型配置(如隐藏层大小。原创 2024-07-09 22:13:55 · 926 阅读 · 0 评论 -
大模型/NLP/算法3——BERT和T5的区别?
BERT专注于编码任务,擅长理解文本上下文,适用于文本分类、NER、问答等需要文本表示的任务。T5:采用文本到文本的统一框架,适用于多任务学习和文本生成任务,具有很强的灵活性和扩展性。原创 2024-07-09 21:46:24 · 795 阅读 · 0 评论 -
大模型/NLP/算法1——大语言模型有哪些//泛化能力
由OpenAI开发,具有1750亿个参数,是迄今为止最强大的自然语言处理模型之一。GPT-3能够生成连贯的文本,涵盖多种文体,如诗歌、小说、新闻报道、代码等。然而,它也存在潜在的偏见和不确定性问题。GPT-3的出现为大型语言模型的发展奠定了基础。(即将发布):据称将比GPT-3更加强大和通用,有望在自然语言处理、机器学习等多个领域展现出更加出色的表现。但截至当前时间(2024年7月8日),GPT-4的具体细节和性能尚未公布。原创 2024-07-09 20:50:53 · 1160 阅读 · 0 评论