Aweii__-CSDN博客

原创文生视频大模型，短视频的过弯点？

快手在算力方面的未雨绸缪，也为可灵项目的快速推进打下了基础。引用知乎用户“小林不加班”的回答，可灵AI采用了类Sora的技术路线，并结合了多项自研创新技术，对视频处理、生成能力以及空间压缩，这三个问题进行优化，使得模型效率和性能提高、能够捕捉到更宽广的特征范围，模型对细节的识别能力也随之增强。当然，要实现这样的效果，整个视频生产大模型行业还需要持续进化，但对于“可灵们”来说，这样的路径才更为现实，不仅能够改变短视频生态，还可以赋能产业端，比如通过学习爆款视频的文本结构，一键生成与商家产品素材匹配的视频。

2024-08-19 11:43:51 1644 2

原创通往 LLM 算法工程师之路

大模型发展日新月异，本文仅梳理成为大模型算法工程师一些典型的技术，期望帮助大家在通往 LLM 算法工程师的道路上走的更扎实。

2024-08-16 18:17:34 918

原创野蛮生长后，AI大模型还需要重复“造轮子”？

相比大模型，小模型推理成本低，响应速度快，在一些特定场景中，经过SFT精调（在一个已经训练好的模型基础上,通过进一步训练模型的一部分参数,以适应新的任务或数据集）后的小模型，使用效果可以媲美大模型。小模型的独特价值在于通过大模型，压缩蒸馏出来一个基础模型，然后再用数据去训练，这比从头开始训小模型，效果要好很多，比基于开源模型训练出来的模型效果更好、速度更快、成本更低。比如，华为的模型采用的是三层架构，其底层属于通识性大模型，具备超强的鲁棒性的泛化性，在这之上是行业大模型和针对具体场景和工作流程的部署模型。

2024-08-16 16:52:36 675

原创 AI大模型学习

学习 AI 大模型涉及多个方面，包括理论知识、实践经验和技术工具的掌握。开始学习前，确保你对人工智能、机器学习和深度学习的基本概念有一定的了解。学习神经网络、自然语言处理、计算机视觉等相关领域的基础知识。

2024-08-15 19:30:00 1218

原创苹果发布新基准，重新定义大模型强弱！

现在大模型评估基准，更多还是从大模型本身的基本功出发，诸如多语言理解、问答推理、数学逻辑等“文理科考试”，像MMLU、GSM8K、ARC、HumanEval、Math、BBH，这些都是大模型的通用能力的基准测试，除此之外，还有行业能力的基准测试，比如FinEval、PubMedQA、JEC-QA等。研究发现，在工具调用层面，专有模型和开源模型之间存在显著的性能差距，即便是表现最好的开源模型Hermes，也依旧落后于倒数第二的专有模型Claude-3-Haiku Anthropic（2024）20多分。

2024-08-15 12:30:00 799

原创想看懂大模型的名字，一共分几步？

二十四年后，一群开发者面对着 mini-LED 屏幕，让由成百上千亿个参数组成的大模型解释出了这个「幽默的谜语」：而对于这些开发者，除了让大模型解释脑筋急转弯外，面对名字一个比一个长的大模型，也有着属于 Ta 们自己的「大象与冰箱问题」——

2024-08-15 07:45:00 2818

原创 2024年大模型十大趋势：智能科技的跃迁

人工智能正在迅速发展，大模型技术正成为赋能各行各业的关键。近日，腾讯研究院、上海交通大学、腾讯优图实验室、腾讯云智能、腾讯青腾联合出品的《2024大模型十大趋势》为我们揭示了从算力底座、智力增强到人机协作，大模型正在重塑人类社会，成为我们可依赖的"外脑"。

2024-08-14 12:15:00 920

原创大模型技术的发展开始慢了下来

Patrick曾担任Apache Cassandra的首席布道师，并在DataStax担任顾问，期间他参与了构建一些最大的生产部署，并从中获得了丰富的经验。训练这些庞大的模型需要巨大的计算能力，消耗的资源和产生的热量令人咋舌。目前，大型前沿模型的开发主要依赖于财力雄厚的云提供商的支持。虽然我们可能不会以极快的速度迈向AGI，但我们正进入一个更具实际意义的创新阶段，AI在现实世界中的影响将逐渐显现。早期采用者让人们兴奋不已，而后来的用户则开始发现技术的不完善，最终推动产品的改进，使其更加可靠和安全。

2024-08-14 07:30:00 674

原创大模型面试之LoRA

LoRA的解释：一种高效微调预训练神经网络的方法LoRA 解决的问题：2021年初，微软与OpenAI合作探索GPT-3的商业可行性。发现仅仅通过提示（prompting）不足以完成生产任务，例如将自然语言转换为代码生成任务。微调是必要的，但由于模型检查点的规模庞大，成本过高。工作原理：这两个问题定义了一个二维平面，在这个平面上，全量微调位于一个角（满秩且更新所有参数），而原点代表原始模型。平面中的任意一点都是一个有效的LoRA配置。

2024-08-13 20:20:46 677

原创大模型综述

预训练数据在大型语言模型的开发中起着关键作用。作为LLM卓越能力的基础，预训练数据的质量、数量和多样性显著影响LLM的性能。常用的预训练数据由无数的文本来源组成，包括书籍、文章和网站。这些数据经过精心整理，以确保全面代表人类知识、语言细微差别和文化观点。预训练数据的重要性在于，它能够为语言模型提供对单词知识、语法、句法和语义的丰富理解，以及识别上下文和生成连贯响应的能力。预训练数据的多样性在塑造模型的性能方面也起着至关重要的作用，LLM的选择高度依赖于预训练数据的组成部分。

2024-08-13 12:00:00 1368

原创本轮 AI 大模型的泡沫可能已经接近顶峰

因此 openai 一直努力在给大模型增加工具以解决常识问题，openai 的文档上明确提到，如果某项工作已经有工具能够做得很好，那么就应该交给工具来做，而不是大模型，从而发挥两者的长处，这也是整个 plugin 设计的由来，但对于人类而言，发明工具，改进工具，才促使我们不断改善我们的技术，从这个角度看大模型也很难比人强，因为他永远不会有动力去改进这些 plugin。或许这就是大模型带给人们的幻觉，其实生活中也存在这类人，特别能说，夸夸其谈，但是一旦干点啥，就特别不靠谱。大模型是否能转变成真正的人工智能？

2024-08-13 08:15:00 586

原创大模型时代的 AI 产品经理

每天 LLM 相关的资讯都让人过载。作为 AI 产品经理，你是更兴奋呢，还是更担忧呢？整理了一下个人近期的思考，欢迎感兴趣的朋友一起交流。不管答案如何，相信我们都不应置身事外。1关于大模型‍‍我非常认同的一种说法是：大模型本质上是压缩、存储继而理解知识的一种方式。其中储藏的海量知识，可以通过 Prompt 被轻松提取出来，用于查询、生成甚至复杂推理，具备很强的泛化能力。为什么说这是本质呢？因为这为我们带来了把 NLP（自然语言处理）技术变成通用能力方案的可能性。

2024-08-12 18:40:17 810

原创图技术在 LLM 下的应用：知识图谱驱动的大语言模型 Llama Index

LLM 如火如荼地发展了大半年，各类大模型和相关框架也逐步成型，可被大家应用到业务实际中。在这个过程中，我们可能会遇到一类问题是：现有的哪些数据，如何更好地与 LLM 对接上。像是大家都在用的知识图谱，现在的图谱该如何借助大模型，发挥更大的价值呢？在本文，我便会和大家分享下如何利用知识图谱构建更好的 In-context Learning 大语言模型应用。此文最初以撰写的，而后我麻烦 ChatGPT 帮我翻译成了英文。

2024-08-12 12:00:00 790

原创直观易用的大模型开发框架LangChain，你会了没？

LangChain 作为一个大语言模型（LLM）集成框架，旨在简化使用大语言模型的开发过程，包括如下组件：LangChain框架优点：1.多模型支持：LangChain 支持多种流行的预训练语言模型，如 OpenAI GPT-3、Hugging Face Transformers 等，为用户提供了广泛的选择。2.易于集成：LangChain 提供了简单直观的API，可以轻松集成到现有的项目和工作流中，无需深入了解底层模型细节。3.强大的工具和组件。

2024-08-12 08:30:00 470

原创从零开始构建大模型(LLM)应用

大模型（LLM）的应用开发是一个不断进化的过程，它涉及到扩展应用场景、解决新问题、添加新功能，并持续改进LLM产品。在继续进行人工智能开发的过程中，保持灵活，勇于尝试新的方式，以最终用户的需求为中心。这样，我们可以不断推动技术前进，让产品更贴合用户需求，更好地服务于实际应用。

2024-08-11 08:45:00 963

原创大模型时代，产品经理如何轻松提升自己？

在这个大数据、人工智能和机器学习的时代，大模型技术日新月异，给各行各业带来了前所未有的变革。作为产品经理，如何紧跟时代步伐，提升自己的专业能力呢？本文将为你揭秘大模型时代下，产品经理的进阶之路。要想在大模型时代立足，产品经理首先需要对大模型技术有所了解。了解其工作原理、技术特点和优劣势，才能更好地应用于产品开发中。通过阅读相关书籍、参加技术沙龙、与专业人士交流等方式，不断提升自己的技术认知。大模型技术的发展日新月异，产品经理应时刻关注行业动态，了解最新的技术趋势和市场变化。

2024-08-10 18:30:00 1004

原创如何使用大型语言模型

大型语言模型是一种将文本映射为文本的函数。给定一段文本输入，大型语言模型预测接下来应该出现的文本。大型语言模型的神奇之处在于，通过在大量文本上训练以最小化预测误差，模型最终学会了对这些预测有用的概念。

2024-08-10 12:30:00 969

原创信我！这里有普通人也能理解的 Transformer

如今爆火的大模型，GPT-3，BERT 等，通过大量的参数和数据，为我们提供了前所未有的自然语言处理能力，使得机器能够更好地理解和生成人类的语言。而注意力机制无疑是重要的基石之一，作为一种新的神经网络结构，使得模型能够更好地捕捉序列中的长距离依赖关系，从而大大提高了模型的性能。本文将从通俗和学术两个角度，详细介绍大模型和注意力机制的基础知识。无论你是对人工智能感兴趣的初学者，还是寻求深入理解的开发者，都能在本文中找到你需要的内容。

2024-08-10 09:00:00 717

原创什么是大模型？

这半年来，“大模型”一词飞入寻常百姓家，以前只是在IT圈相对较为封闭的圈子里流传。这一词的大规模爆发，原因在于ChatGPT的推出和广泛使用。其实类似“GPT”的模型还有很多，百度，阿里，腾讯和字节跳动等公司都有自己的模型，差异各有千秋。AI的发展历程人工智能（Artificial Intelligence，AI）的发展经历了多个阶段和里程碑，下面是AI的主要发展历程：1. 早期研究阶段（1950年代-1960年代）：在这个阶段，AI的研究主要集中在推理和问题解决方面。

2024-08-09 18:30:00 1224

原创 LLM的7种推理框架

因为在某些情况下，例如当我们需要处理的任务或数据与TGI的优化技巧不匹配时，使用传统的Transformer推理可能会更合适。DeepSpeed提供了一系列优化技术，如ZeRO（零冗余优化器），3D并行（数据并行、模型并行和流水线并行的结合），1比特Adam等，这些技术可以显著提升大模型训练和推理的效率。DeepSpeed是微软推出的一个开源深度学习优化库，它通过系统优化和压缩的方法，深度优化硬件设备、操作系统、框架等方面，并采用模型压缩和数据压缩技术，以提升大规模模型推理和训练的效率。

2024-08-09 12:15:00 1501

原创 2024！深入了解大语言模型（LLM）微调方法（总结）

明确任务」：在微调大型语言模型的过程中，明确任务是基础步骤。它可以提供清晰的方向，确保模型的强大能力被引导用于实现特定目标，并为性能测量设定明确基准。「选择合适的预训练模型」：使用预训练模型进行微调至关重要，因为它利用了从大量数据中获得的知识，确保模型不会从零开始学习。这种方法既计算效率高又节省时间。此外，预训练捕捉了通用语言理解，使微调能够专注于领域特定的细节，通常能在专业任务中带来更好的模型性能。「设置超参数」：超参数是模型训练过程中可调整的变量，对找到适合任务的最优配置至关重要。

2024-08-09 08:45:00 703

原创从零开始学习大模型-大模型学习路线

随着技术的进步，大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。所以掌握大模型的知识和技能变得越来越重要。**数学基础：**深入理解线性代数、概率论和统计学、微积分等基础数学知识。**编程基础：**熟练掌握至少一种编程语言，推荐Python，因为它是数据科学和机器学习领域的主流语言。**机器学习基础：**学习机器学习的基本概念、算法和模型，如线性回归、决策树、随机森林、支持向量机等。

2024-08-08 17:30:00 1095

原创马斯克等人热捧：高薪缺人，但要懂全栈懂 LLM，一个全新职业正在兴起！

前 Tesla 人工智能总监 Andrej Karpathy 对此评论说，这种职业的出现是因为 LLM 创建了一个全新的抽象和专业层，可以将这个职业称之为“提示工程师”，但“提示工程师”也有一定的误导性，因为它不仅仅是用自然语言进行“Prompt”，还需要做很多粘合代码 / 基础设施的工作。总之，这仍然是一个需要大量的软件知识、学习最新技能并了解其中相关性的职业，它也许在重新定义 AI 和软件工程之间的差别与边界，但总的发展趋势已经形成，并且很可能会在近十年成为市场需求最大的工程技术岗位。

2024-08-08 12:00:00 1005

原创以LLAMA为例，快速入门LLM的推理过程

llama是LLM（LLM指大语言模型）模型的一种结构，llama这种模型的任务就是在阅读前n个单词后预测句子中下一个单词，输出取决于过去和现在输入，与未来无关。过程大概是这样，每次输入模型会带上上一次输出的结果（不同于CV模型，CV模型输入只需要一次即可，一次推理即可得到结果）：LLM-生成一般来说，LLM模型主要由两个块组成：编码器（左侧）：编码器接收输入并构建其表示形式（特征）。这意味着该模型被优化为从输入中获取理解（比如输入文本判断这段话是高兴还是难受）。

2024-08-08 08:00:00 1110

原创大模型面经之bert和gpt区别

本篇介绍bert和gpt区别。BERT和GPT是自然语言处理（NLP）领域中的两种重要预训练语言模型，它们在多个方面存在显著的区别。以下是对BERT和GPT区别的详细分析BERT：全称：Bidirectional Encoder Representations from Transformers。架构：基于Transformer的编码器部分进行堆叠构建，通过预训练和微调两个阶段来生成深度的双向语言表征。

2024-08-07 18:30:00 1618

原创多模态大模型发展及应用

*该领域的代表作为OpenAI 的多模态模型GPT-4V，模型具备较强大的能力：1）模型具有强大的通用性能力，能够处理不同输入模态的任意组合，包括图像、子图像、文本、场景文本和视觉指针。整体而言，多模态智能体在多模态理解方面能力较强，并可轻松扩展到潜在的数百万种工具中。其次，多模态更接近人类学习的模式，在物理世界中，人类认知一个事物并不是通过单一模态，例如认知一只宠物，可以从视觉（宠物形貌）、听觉（宠物叫声）、嗅觉（宠物体味）、触觉（宠物毛发、宠物体温等）等多模态全面立体认知，是未来人工智能的发展方向。

2024-08-07 12:15:00 2273

原创一文总结马斯克最新八小时访谈：Neuralink、xAI 及人类未来

如果我有Neuralink，我能一分钟看完六千字”上周六，知名科技博客Lex Fridman邀请到了埃隆·马斯克（Elon Musk ）以及Neuralink团队的其他成员进行了深入讨论，时间达到了惊人的八个半个小时，谈话内容涉及 Neuralink扩展人类思维的能力、对闻名的思考、火星殖民为人类创造一个后备、以及人工智能与机器人的结合等话题。对话里马斯克和Lex Fridman畅谈了他对未来科技和AI应用的设想，技术性超强，内容覆盖面超广，探讨内容从深度到高度都是难得一见。

2024-08-07 08:00:00 1352

原创智观察 | 行业赛道里的AI大模型

例如，**君联资本、联想之星共同投资企业小马智行很早就开始研究AI大模型在自动驾驶领域的应用，**主要研究涉及三个方面：大规模仿真系统、线下大模型自动标注系统、自动驾驶端到端大模型。尽管落地进度不一，合规性、安全性及公平性等各方面也存在诸多挑战，但长远来看，**以大模型赋能行业发展将是大势所趋，**有望催生更多新产业、新模式、新动能，带动社会整体发展。**垂直大模型一般基于通用大模型、开源模型开发，可以对模型结构、参数按需调整，适配个性化应用需求。**垂直大模型所需的算力、参数量、数据量都更小，成本更低。

2024-08-06 21:03:34 361

原创干大模型的月薪快10w了

如果问你：2024年，程序员必须掌握哪项技术？从去年起，：编写更快，程序更稳定；：测试数、BUG对应减少；：训练模型，接&做项目更快；‍输入，AI就能迅速批量完成工作，甚至比人工更出色。知名大厂都在布局AI市场，年薪甚至翻到**80w-**。未来职场，**。**现在与其焦虑被行业淘汰，不如先人一步，学会运用AI大模型提升工作效率。快速链接产品/业务团队，避开35岁裁员高峰期，顺利逆袭高阶技术管理层，延长……

2024-08-06 15:51:24 436

原创大模型在代码缺陷检测领域的应用实践

因生成式路线有自身的优势，如参数量大存在智能涌现具有更强的推理能力，允许输入的token量不断增加可减少对切片清洗的依赖，可与修复一起结合等，我们预判在缺陷检测场景生成式是个趋势，接下来我们将继续优化，不断尝试prompt和微调，通过更合适的引导，更好的激发模型的潜力，从而提升生成式方法在检测场景的效果。本文提出基于代码知识图谱解决给机器学什么的问题，以及基于代码大模型解决机器怎么学的问题，让计算机像人一样看懂代码，并自动发现代码中的缺陷，给出提示，以期达到更小的人力成本，更好的效果泛化和更高的问题召回。

2024-08-05 17:35:37 833

原创大模型岗位面试总结，靠它轻松拿下offer

节前技术群邀请了一些参加大模型面试（含实习）的同学，分享他们面试算法工程师(大模型方向)的宝贵经验。之前总结链接如下：超全总结！

2024-08-05 15:02:16 840

原创国内 AI大模型产业发展深度分析 2024

校对能力方面，文修大模型以拼写错误、语义错误、语法错误为基础，以内容差错、常识校对差错、内容风险识别三大类校对类型，27 类细分类型为校对标准，有效满足出版行业、新闻行业的“三审三校”的校对规范和实际业务需求，提供诸如广告法检测、常识校对等更为全面的校对服务；随着大模型逐渐开源，YonGPT 还优化了企业服务大模型的训练效率和成本，集成了丰富的开发工具和优化算法，通过自有的数据管理、大模型精调、大模型评估优化、大模型推理和插件服务等功能，为大模型的构建和服务提供稳定且有效的支撑。

2024-08-05 10:50:36 1247

原创从LLM到大模型推理的最新进展

大模型推理引擎经过一年多发展，进入了一个关键的调整期。一方面，针对定制集群的分离式架构出现，很多业务方自己定制更复杂的并行和调度方案。另一方面，LLM的用法更加复杂，催生了LLM Programs使用范式。此外，非NVIDIA的NPU如雨后春笋般涌现，它们独特的硬件特性亟待新的系统架构来充分挖掘与利用。在这一背景下，以vLLM为代表的开源LLM推理引擎正面临着前所未有的进化压力。而SGLang此次的升级，不仅从框架层面揭示了vLLM仍有巨大的提升潜力，也对LLM场景需求进行了一些探索，值得大家关注。

2024-08-04 11:15:00 1229

原创大语言模型LLM的一些点

AI大模型是“人工智能预训练大模型”的简称，包含了“预训练”和“大模型”两层含义，二者结合产生了一种新的人工智能模式，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用。LSTM、Transformer之类的架构，预训练的模型显著提升了各种NLP任务的性能，"预训练和微调"的学习范式变得流行。LLM的涌现能力指的是在大型模型中出现的一些令人惊讶且不同于较小模型的能力，类似于物理学中的相变现象。上下文学习，LLM能在给定自然语言指令生成预期输出的能力，无需额外的训练。

2024-08-03 09:45:00 684

原创教育行业垂直领域大模型LLM4Edu: 前景与机遇

教育事业在人类社会发展中发挥着重要作用,在智慧教育领域的应用具有广阔的前景。: 传统教育面临学生个体差异、教学资源配置不足、教学效果评估困难等挑战。教育领域目前面临着各种挑战，包括和**教学资源分配不均，**传统的课堂教学难以满足不同学生的个性化需求。：**教育大模型()的研究正在不断发展，可以逐渐实现个性化学习、智能辅导、教育评估目标提供了新的方法和途径，从而提升教育质量和学习体验。**本文目的：**调研和总结LLMs在智慧教育中的应用。

2024-08-02 19:00:53 1257

原创 AI产品经理必备：什么是LLM,有什么优劣势

里程碑：例如，GPT-3的发布，这是一个拥有1750亿参数的巨大模型，它在多个任务中展示了惊人的性能，包括文本生成、翻译、代码编写等。里程碑：例如，2018年OpenAI发布的GPT（生成对抗网络）模型，以及谷歌的BERT（双向编码器表示从转换器）模型，都是这个阶段的代表。模型的大小和复杂性继续增长，同时，更多的工具和平台的出现使得模型的开发和应用变得更加容易和普遍。里程碑：例如，深度学习的复兴可以追溯到2006年，随后的几年中，研究人员开始开发更大、更复杂的神经网络模型。每个阶段都有其特点和里程碑。

2024-08-02 18:49:36 858

原创真免费！10 款必备的语言类 AI 大模型

通义千问是阿里云推出的一个大型语言模型，它是通义系列的最新成果，能够回答问题、创作文字，还能表达观点、撰写代码，具备丰富的知识和强大的语言生成能力。它拥有强大的自然语言处理和智能交互能力，能够实现智能问答、聊天互动、文本生成等多种应用场景，并且具有丰富的知识储备，涵盖科学、技术、文化、艺术、历史等领域。百川大模型是由百川智能推出的大模型产品，融合了意图理解、信息检索以及强化学习技术，结合有监督微调与人类意图对齐，支持多轮对话、内容生成、文章摘要、知识问答、代码生成、指令跟随、数学与逻辑推理等多元化场景。

2024-08-02 10:18:17 1752

空空如也

空空如也