kiiy2-CSDN博客

原创七天入门LLM大模型 | 第一天：魔搭社区和LLM大模型基础知识

七天入门LLM大模型学习课程。#01魔搭LLM大模型开源生态图近一年来，大语言模型（LLM）成为为全球科技与社会关注的焦点，公众对这类模型所蕴含的先进技术及其广泛应用有了更为深入的认知。关于LLMs是否应采取开源策略的话题引发了广泛的热议和深度探讨。魔搭ModelScope社区在过去的一年中，积极推动开源模型的发展，魔搭社区通过开源推动模型贡献者的研究成果的透明度提升和可复制性的强化，同时激发中国研究者和开发者社群的集体创新潜能。

2024-08-19 16:10:13 885

原创大模型算力基础设施技术趋势、关键挑战与发展路径

摘要从大模型技术发展趋势出发，分析了多模态、长序列和混合专家模型的架构特征和算力需求特点。围绕大模型对巨量算力规模与复杂通信模式的需求，重点从算力利用效率、集群互联技术两方面量化分析了当前大模型算力基础设施存在的发展问题和面临的技术挑战，并提出了以应用为导向、以系统为核心、以效率为目标的高质量算力基础设施发展路径。**关键词：**多模态模型；长序列模型；混合专家模型；算力利用效率；集群互联；高质量算力0引言近年来，生成式人工智能技术，尤其是大语言模型（Large Language Model，LLM）的快速

2024-08-19 13:50:00 720

原创大语言模型 (LLM)是什么?

2023年，让整个人类最为振奋的AI技术就是ChatGPT。“大语言模型（Large Language Model）”这个词也随之映入人们的眼帘。ChatGPT让人觉得惊艳之处，能够结合上下文，像人一样有逻辑性地回答问题，就算生成超长的文本也不会跑偏。**所谓语言模型（Language Model）**是一种机器学习算法，它可以根据给定文本来预测下一个词语或字符的出现的概率，通过大量的文本数据来学习语言的统计特征，进而生成具有相似统计特征的新文本。

2024-08-16 18:10:48 977

原创怎么构建Agent？我写了一个教程（含代码）

我们可以把不同的 LLM 或者 AI Agent 组合起来，让每个 Agent 都专注于它最擅长的领域。基准测试可以用来评估每个 Agent 在不同任务上的表现，使用已建立的数据集如 GLUE 和 FLASK，可以进行与不同最先进模型的标准化比较。AI Agent 则具备在不同互动之间保持上下文的能力，每个 Agent 可以参考前一个 Agent 的响应来完成它们预期的任务。另一方面，AI Agent 可以设计为由多个专门模型组成的团队，每个模型专注于一个特定任务，例如研究者、博客撰写者、社交媒体专家。

2024-08-16 15:03:02 706

原创大模型不再变大了吗？

其显示，在给定预算的情况下，较小的模型在生成高质量结果方面经常优于大模型，反而是大模型由于拥有过多的冗余数据或干扰项，在反应速度、能耗等指标上表现逊于小模型。对此，前OpenAI、现特斯拉AI研究员卡帕西认为，该趋势符合自卷积神经网络以来的AI技术演进规律，为了能够更高效地完成任务，模型必须“先变大，后变小”，直至获得完美的训练集。近日，《经济学人》发表文章，援引AI研究公司Epoch AI的数据，认为若按照目前的趋势，到2028年互联网上的所有高质量文本数据都将被使用完毕。

2024-08-15 12:15:00 574

原创大型语言模型（LLMs）简介

掌握大型语言模型（LLMs）的基础原理和实际应用。本内容通过理论知识和实践示例的结合，将帮助你全面理解LLMs及其在人工智能领域中的重要性。内容结束时，你将能够解释这些先进模型在创造创新AI解决方案中的关键作用。

2024-08-15 08:00:00 624

原创 “大模型‘狂飙‘下的推荐系统革新：重塑个性化体验的新纪元“

以情感分析任务为例，过去我们做此类任务的方式是对输入的文本去做一个分类任务，预测它情感的正向或者负向，更多的是一种判别式的方法。直接使用其 in content learning 的方式去做推荐的话，一个突出的问题是，GPT 是被高度安全优化过的，所以它很难去拒绝用户，也就是很难 say no，如果我们按照 point wise 的方式，给它一个 list，history，然后问它是不是要把这些推给这个用户，它很难 say no，有很大概率会对很多用户都直接 say yes，也就是所有东西都推对。

2024-08-14 13:00:00 609

原创为什么选择搭建自己的大模型？

在人工智能技术迅猛发展的今天，搭建本地专属的大模型不仅是提升数据安全和计算效率的明智选择，更是实现业务目标、控制成本和优化运营的重要战略。无论您是希望保护敏感数据、提升系统性能，还是追求自主控制和定制化解决方案，本地部署的大模型都能够为您的组织提供显著的优势。选择本地部署的大模型，可以提高系统的可靠性和连续性。选择本地部署的大模型，意味着组织可以对模型的管理、维护和更新拥有完全的自主控制权。通过本地部署，组织可以通过一次性采购硬件设备和软件许可证，避免了持续的云服务费用，并能更好地预算和控制整体成本。

2024-08-14 08:00:00 499

原创面试腾讯大模型算法岗，有点偏。。。

近年大模型彻底火了，大厂新增了大量岗位，要求掌握大模型相关知识，以及各类开源模型，从今年陆续开启的秋招来看，腾讯等大厂LLM岗位面试中，除了大模型微调、训练和推理等，为了帮助大家掌握幻觉缓解创新方法，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2024-08-13 20:17:17 432

原创大模型主流应用RAG的介绍——从架构到技术细节

如果你问我现在基于LLM（大语言模型，本文有时候也会讲该名词描述为“大模型”）最火热的应用是什么，那我必须主推检索增强生成（RAG最初是为了解决LLM的各类问题的（后面会提到）产生的，但后面大家发现在现阶段的很多企业痛点上，使用RAG好像是更好的解决方案。就像我之前的文章《关于LLM的一些声音总结》提到的一样，企业发现其实自己要的好像是一个更好地搜索，根本不关心是不是大模型。于是，RAG被越来越多提到，包括开源的ChatPDF，也是RAG的一个经典应用。

2024-08-13 12:45:00 473

原创 RAG和微调哪个是LLM优化的最优解

在考虑这些维度时，在RAG和微调之间进行选择变得更加直观。如果我们需要倾向于获取外部知识和重视透明度，RAG是我们的首选。另一方面，如果我们正在使用稳定的标记数据，并旨在使模型更接近特定需求，则微调是更好的选择。在下一节中，我们将看到如何基于这些标准评估流行的LLM用例。

2024-08-13 09:00:00 282

原创 Llama 3.1：开源LLM新突破

随着 Llama 3.1 的开源，人工智能的未来已不再遥不可及。它不仅为消费者带来了更高效、更精准的智能工具，更为全球开发者社区注入了创新的活力。在技术的不断演进中，Llama 3.1 无疑将成为推动 AI 领域进步的关键力量。让我们期待，这股开源的力量如何激发更多的智慧火花，共同书写人工智能的新篇章。

2024-08-12 12:00:00 583

原创大模型应用开发实战基础

下面用程序演示「生成下一个字」。可以自己修改 prompt 试试。还可以使用相同的 prompt 运行多次。`prompt = "今天天气很" # 改明天试试``)`大模型通俗的讲就是根据上文，猜下一个词（的概率）：大模型可是个爱学习的小家伙，它把人类说过的话都记在了心里。这就是我们说的「机器学习」，而它学习的过程，我们叫它「训练」。它还特别擅长记概率，把一串接一串的token可能跟着的token都记录下来了。这些记录，就是我们说的「参数」，也可以叫做「权重」。

2024-08-12 08:15:00 300

原创大模型实用指南，如何为自己的业务选择最佳大模型？

在当今的百模齐放的时代，大模型已经成为了一种重要的工具，各家争相发布自家大模型，并强调在某某榜单上排名第几，超越了某某某。然而，面对众多的模型和架构，我们应该如何选择最适合自己的模型呢？

2024-08-11 09:00:00 328

原创大模型的经典面试问题及答案

Transformer架构是Vaswani等人于2017年推出的一种深度学习模型，旨在以比递归神经网络（RNN）和长短期记忆（LSTM）等先前模型更高的效率和性能处理顺序数据。它依赖于自注意力机制（self-attention mechanisms）来并行处理输入数据，使其具有高度的可扩展性，并能够捕获长期依赖关系。在LLM中，Transformer架构构成了骨干，使模型能够高效地处理大量文本数据，并生成上下文相关和连贯的文本输出。

2024-08-10 16:45:00 1674

原创大语言模型 (LLM) 窥探未来

在NLP领域，早期的模型如 LSTM 和 GRU 在处理序列数据时取得了一定的成功。但随着数据量和复杂性的增加，这些模型开始显得力不从心。Transformer 模型的提出，它通过自注意力（Self-Attention）机制，显著提高了处理长距离依赖关系的能力，这一架构成为后续大语言模型的基石。随后，BERT (Bidirectional Encoder Representations from Transformers) 的出现改变了游戏规则，它通过双向训练的方式，大大提升了上下文理解的深度。

2024-08-10 13:30:00 1679

原创 [科普向]关于GPT的核心-大语言模型（LLM）

大型语言模型（LLMs）是在自然语言处理（NLP）和自然语言生成（NLG）任务中利用深度学习的基础模型。为了帮助它们学习语言的复杂性和联系，大型语言模型在大量的数据上进行了预训练。这些模型可以适用于下游（特定）任务。LLM本质上是一个基于的神经网络，由谷歌工程师在2017年一篇题为的文章中介绍。一个模型的先进性和性能可以通过它有多少个参数来判断。一个模型的参数是它在生成输出时考虑的因素数量。

2024-08-10 09:45:00 1476

原创必知！大模型背后的6大核心技术！

大家好，今天我们一同来探讨一下那些大模型背后的核心技术！Transformer模型，无疑是大型语言模型的坚实基石，它开启了深度学习领域的新纪元。在早期阶段，循环神经网络（RNN）曾是处理序列数据的核心手段。尽管RNN及其变体在某些任务中展现出了卓越的性能，但在面对长序列时，它们却常常陷入梯度消失和模型退化的困境，令人难以攻克。为了解决这一技术瓶颈，Transformer模型应运而生，它如同黎明中的曙光，照亮了前行的道路。

2024-08-09 18:00:00 2285

原创详细比较MLOps和LLMOps

MLOps（机器学习操作）：MLOps是一种结合机器学习、软件工程和DevOps实践的方法论，核心目标是简化机器学习模型的部署、管理和维护。它侧重于实现机器学习系统整个生命周期的自动化，包括数据准备、模型训练、部署、监控和再训练。LLMOps 特指与语言模型（如 ChatGPT）相关的操作实践。它涉及语言模型生命周期的管理，包括训练、微调、部署、监控和版本控制。LLMOps的目标是确保语言模型在其生命周期内的可靠性、性能和安全性。

2024-08-09 12:00:00 660

原创 LLM 可观测性的探索与思考

因此，企业需要 **LLM Observability（大语言模型可观测性）**来展示和监控模型内部工作机制，确保 LLM 能够在各种应用场景中安全公正地运行，为企业提供性能监控、成本控制、透明度提升和故障排除等多方面的价值，帮助企业优化模型性能，提升系统稳定性，推动技术创新，实现更加智能和高效的业务应用。LLM 可观测性不仅能够提高模型的透明度，还能够及时发现并纠正潜在的问题，确保模型的安全及准确性，减少错误，提高用户信任，从而推动人工智能技术走上。Token 是模型处理文本数据的基本单元。

2024-08-09 08:15:00 920

原创全面整理人工智能(AI)学习路线图及资源推荐

在人工智能（AI）飞速发展的今天，掌握AI技术已经成为了许多高校研究者和职场人士的必备技能。从深度学习到强化学习，从大模型训练到实际应用，AI技术的广度和深度不断拓展。作为一名AI学习者，面对浩瀚的知识海洋，如何有条不紊地学习并应用这些技术呢？别担心，今天我为你整理了一份全面的AI学习路线图及资源推荐，带你一步步踏上AI学习之路

2024-08-08 18:45:00 789

原创 LLM和RAG技术的比较探索

*相比之下，**RAG的优势在于其提供准确、信息丰富的响应的能力，在知识密集型任务中尤其有价值，非常适合于最新或特定详细信息的整合至关重要的情况。然而，LLM并非没有挑战。LLM的核心是依靠大量的文本数据和复杂的神经网络架构，从他们接受过训练的文本内容中学习语言模式、语法和知识。在人工智能（AI）的动态环境中，两种开创性的技术——大型语言模型（LLM）和检索增强生成（RAG）——在理解和生成类人文本方面脱颖而出。随着人工智能的不断发展，LLM和RAG的比较分析强调了为正确的任务选择正确工具的重要性。

2024-08-08 12:00:00 545

原创别浪费你的显存了！LLM偏好对齐的正确打开方式

这让在同样的数据长度下训练更大尺寸的模型或是在相同尺寸的模型下训练更长的偏好文本成为了可能。这就不得不提到大语言模型中常用的数据拼接（pack）技巧，数据拼接通过将不同的序列拼接为一个一维序列作为模型的输入，从而避免的组 batch 时的 padding，这样的训练方式在预训练与 SFT 中已经广泛使用。**我们通过给模型打补丁的方式，魔改了模型中注意力层的计算过程，利用 flash attention 提供的变长注意力接口，我们成功让 HuggingFace 格式的语言模型支持了偏好数据的拼接训练。

2024-08-08 08:45:00 969

原创一文弄懂 LLM 结构化数据生成原理

目前 LLM（Large Language Model）从文本补全到内容创作，都展示出了强大的生成能力。然而通过 LLM 生成结构化的数据如 JSON 格式的输出，却仍然是一个有挑战性的任务。生成结构化的数据不仅要求模型输出符合特定的语法规则，还需要确保数据的正确性和一致性。虽然通过 prompt 工程可能可以实现指定格式的结构化数据生成，但是这也很大程度取决于模型的能力。本文将探讨如何结合人工规则让 LLM 输出符合 JSON 格式的数据。

2024-08-07 14:59:15 711

原创从BAT到五小虎，周鸿祎集齐大模型全明星阵容，能否构建大模型时代的超级平台？

与传统的MoE（Mixture of Experts）架构只能实现简单的任务路由分发不同，CoE更强用户意图识别和模型之间的协同工作能力，基于大脑多功能分区的原理，CoE将大模型的大脑分区，各司其职，就像一个团队中各个专家各自发挥所长。因此，想要让大模型与AI完美结合，要让AI搜索根据有限的提示词，就能够理解用户的意图，为用户提供更精准的答案。正所谓“术业有专攻”，在安全领域扛把子的360大模型，也并非“全才”，想要在所有场景都为用户提供最好的体验，最行之有效的方式，是根据需求匹配对应的模型。

2024-08-07 12:45:00 785

原创让「GPT-4V」跑在手机上，这家中国大模型公司做到了

而面壁 MiniCPM-V 2.6 以 8B 参数，在综合性能上追赶上 GPT-4V 的同时，首次作为端侧模型，掀开单图、多图、视频理解三项多模态核心能力全面赶超 GPT-4V 的新格局，且均实现 20B 参数以下模型性能 SOTA。一个看似热衷环保的人，却把塑料瓶装水打开装进环保水壶……面壁认为，MiniCPM-V 2.6 之所以能实现从单一到全面的优势跃进，除了 Qwen2-7B 基座模型的性能加持之外，也归功于采用了统一高清视觉架构，让传统单图的多模态优势功能得以继承，并实现了一通百通。

2024-08-07 08:30:00 684

原创 ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

在此部分的示例中，他们使用了 “地球是平的” 这一例子来说明模型在面对与已知事实相冲突的信息时应如何反应，与本次研究团队的标题不谋而合，也更加突显了大语言模型在处理认知冲突时的行为表现的重要性。然而，可以预见的是，随着技术的发展，虚假信息的生成和传播将会变得更加容易和普遍。绝大多数大模型都易被虚假信息欺骗：从最先进的 GPT-4 （注：本研究的完成时间是 2023 年 9 月，当时最先进的模型是 GPT-4）到最差的模型，所有模型在经过多轮测试之后，误导率从 20%-80% 不等。

2024-08-06 20:58:14 686

原创急！现在转大模型还来得及吗？

大模型的出现，让行内和行外大多数人都感到非常焦虑。行外很多人想了解却感到无从下手，行内很多人苦于没有硬件条件无法尝试。想转大模型方向，相关的招聘虽然层出不穷，但一般都要求有大模型经验。而更多的人，则一直处于观望之中，感觉自己只能每天看看各种自媒体，以及在聊天时的各种口嗨，难以躬身入局。但也有不少人对其表示怀疑，巨大的算力成本和模糊的落地场景是其发展的阻碍。大家更容易将其和元宇宙等概念联系起来，视为泡沫。

2024-08-06 15:46:45 1138

原创大模型应用深入，中国大模型机遇在哪？

腾讯云发布了金融行业大模型解决方案，支持接入腾讯混元大模型、金融行业大模型及20多个主流开源模型，具备金融领域知识推理、研报撰写、智能舆情等专业下游任务能力，通过将大模型与行业场景深度结合，有望将智慧金融服务提升到新水准。腾讯健康基于腾讯混元大模型，打造了面向医疗行业的专属大模型。此外，在面对陷阱问题时，腾讯通过强化学习的方法，让混元大模型学会识别陷阱问题，对难以回答或不应回答的问题说“不”，提升应用安全性和智能感，由此混元大模型面对安全诱导类问题的拒答率已提升了20%。

2024-08-05 17:32:51 774

原创面了八家，靠这份总结拿了5家大模型offer

成功求职并不是一件难事，关键在于你是否做好了充分的准备。通过学习和掌握AI技术的相关知识和技能，了解面试中可能出现的问题和技巧，你就能够在面试中展现出自己的专业素养和实力，赢得面试官的青睐和认可。因此，让我们一起努力，用知识和技能武装自己，迎接AI时代的挑战和机遇吧！

2024-08-05 14:58:59 906

原创花了很久很多心思整理的解读大模型Transformer架构

针对第4步和第5步，举个例子，比如第四步输出了一个“中”，然后存储到第五步中，第五步会带着“中”这个字继续进入到大模型中进行计算，计算后第四步会输出一个“国”字，然后继续存储到第五步，此时第五步里面存储了“中国”，第五步下次会带着“中国”作为输入，继续让大模型进行计算。**背后的原理是对每个样本的特征进行归一化，使其均值为 0，方差为1。（标记文字的位置，这里为什么要标记位置呢，因为同样的字，比如我爱你和你爱我，位置不同，表示的含义不同，所以需要对输入的每一个文字，进行位置的标记）。，使模型更容易训练。

2024-08-05 10:41:59 897

原创小白科普：大语言模型 LLM 的工作原理

只是这一次，我们会喂它三餐所有的数据，由不同的菜肴组成——我们谈论的是我们见过的每顿饭——并且我们会要求它寻找模式。LLM 会找到的答案是“我”。”由于我们的模型经过训练，可以考虑食物及其关系，而不是特定菜肴的成分和口味，因此它可以考虑任何场景和任何口味组合，并找出添加到膳食中的最佳菜肴。最近关于人工智能的所有讨论——它的影响、它引发的道德困境、采用它的利弊——我的非技术朋友之间的讨论很少涉及这些东西是如何工作的。如果我取鸡肉面汤的坐标，减去面条的坐标，然后加上米饭的坐标，我最终会接近鸡肉和米汤的坐标点。

2024-08-04 10:00:00 850

原创一文搞懂！如何高效微调你的 LLM

实验将五种方法进行对比，包括：Fine-Tuning (全量微调)、Bias-only or BitFit（只训练偏置向量）、Prefix-embedding tuning (PreEmbed，上文介绍的 Prefix Tuning 方法，只优化 embedding 层的激活)、Prefix-layer tuning (PreLayer，Prefix Tuning 方法，优化模型所有层的激活) 、 Adapter tuning（不同的 Adapter 方法：、、、、）GPT-3 上不同适配方法性能。

2024-08-03 10:30:00 481

原创大模型面试之LoRA

LoRA的解释：一种高效微调预训练神经网络的方法LoRA 解决的问题：🔸 2021年初，微软与OpenAI合作探索GPT-3的商业可行性。🔸 发现仅仅通过提示（prompting）不足以完成生产任务，例如将自然语言转换为代码生成任务。🔸 微调是必要的，但由于模型检查点的规模庞大，成本过高。工作原理：🔸 这两个问题定义了一个二维平面，在这个平面上，全量微调位于一个角（满秩且更新所有参数），而原点代表原始模型。🔸 平面中的任意一点都是一个有效的LoRA配置。

2024-08-02 19:09:54 828

原创大语言模型时代的挑战与机遇：青年发展、教育变革与就业前景

然而,随着人工智能技术的不断发展,尤其是大语言模型(Large Language Model,LLM)的兴起,语言处理领域正在发生革命性的变化。首先,大语言模型能够根据学生个体的特点和学习状况,自动生成合适的教学内容和材料,从而实现精准的知识传递。大语言模型汇聚了海量的人类知识,为青年人提供了一个前所未有的知识宝库,他们可以通过与大语言模型的互动来获取全新的见解和灵感,从而拓宽认知视野。唯有如此,我们才能充分把握人工智能发展所带来的红利,为青年一代的成长、教育的优化和就业市场的活力注入持久的动力。

2024-08-02 19:03:40 1106

原创 10分钟搞清楚大模型

最近看了由AI专家Andrej Karpathy制作的，主要介绍了大型语言模型（Large Language Models，简称LLM）的视频，非常通俗易懂，并且只有一个小时时长。视频的标题就叫做“写给大忙人的大模型入门”“Intro to Large Language Models”[1]。尝试提取其中的关键概念与大家分享。为什么这个视频值得分享，我觉得内容非常精要，准确权威而且通俗易懂。简要介绍下Andrej: 他在斯坦福大学获得了计算机科学博士学位，师从著名的计算机科学家、人工智能研究员李飞飞教授。

2024-08-02 10:14:38 886

空空如也

空空如也