前言:2024年,人工智能(AI)以其迅猛的发展势头,书写了科技史上浓墨重彩的一笔。如果用一个词来形容这一年,那一定是“无处不在”。AI不再仅仅是实验室里的概念,而是深入到我们生活的每一个角落。从诺贝尔奖物理学奖和化学奖的双重肯定,到千家万户的智能应用,AI正在以前所未有的速度重塑着我们的世界。让我们一起回顾这一年AI领域的重大进展,并展望未来AI将如何继续改变我们的生活。
1、生成式AI:从“能写会画”到“多才多艺”
2024年,生成式AI无疑是最耀眼的明星。它不仅能生成文本、图像、视频还能代码生成、创作音乐制作MV、甚至设计芯片。
1)文本生成: AI写作助手更加智能,能辅助我们修改邮件、润色文案,甚至创作诗歌。
ChatGPT
Kimi
2)图像生成: AI已经可以生成逼真的人物图像和风景。国内字节的Dreamina比midjourney图像质感更优些。
midjourney
字节Dreamina
3)视频生成: OpenAI推出的Sora模型,能够根据文本指令生成长达20秒的高质量视频,并支持多种编辑功能。谷歌也推出了对标Sora的Veo模型,可以生成1080p分辨率的视频。国内快手可灵可生成5秒视频。
OpenAI SORA
Google Veo
快手 可灵
4)多模态理解: AI模型不再局限于单一模态,而是可以理解文本、图像、音频等多种信息,实现更自然的人机交互。例如,OpenAI的GPT-4o模型,可以接受文本、音频和图像的任意组合作为输入,并生成相应的输出
。谷歌的Gemini 2.0 flash也具备强大的多模态理解能力,可以根据用户的语言指令在图像中进行搜索,或者识别图像中的物体。
OpenAI GPT-4o "湖里的鸭子在做什么“
Gemini 2.0 flash ”用这些物品造一个有创意的句子“
5)3D世界生成:通过二维图像直接生成3D世界,可以使用鼠标和键盘在场景中自由移动,并控制视角、调整焦距、移动变焦、更改各种特效等。如AI教母李飞飞创办的World labs新开发的空间智能大世界模型可以快速将二维图像转换为可交互的3D世界,可以应用各种特效和动画,能够生成物理上一致且稳定的场景,甚至可以用梵高等画家的名画创作3D世界,为内容创作和体验开辟了全新的可能性。
5)其他:通过指令直接生成代码,生成音乐及制作MV等
chatgpt直接生成代码
Cursor辅助生成代码
通过Suno制作音乐
月之暗面noisee创作音乐MV
生成式AI场景应用案例:
谷歌发布的 185 个生成式 AI 应用案例,案例涵盖六大类 :客户代理、员工代理、代码代理、数据代理、安全代理和创意代理,展现生成式 AI 如何改变我们生活、工作和互动的方式。如:
●视频编辑: Runway公司提供AI创意工具,支持图像、视频和音频的生成和编辑,广泛应用于创意产业。
●代码生成: Regnology 使用 Gemini 1.5 Pro 构建了 Ticket-to-Code Writer 工具,将错误报告自动转换为可操作代码,从而显着简化软件开发流程。
●个性化旅行搜索: 阿拉斯加航空公司正在开发自然语言搜索,为旅客提供类似与知识渊博的旅行社互动的对话式体验。
●智能购物助手: Mercado Libre 已将语义搜索纳入其数字购物平台,使用来自 Vertex AI Agent Builder 的 AI 嵌入,极大地改善了拉丁美洲超过 2 亿消费者的产品推荐和可发现性。
2、大模型:从“通用”到“专用”
2024年,大语言模型(LLM)持续进化,不仅变得更加强大,也更加注重实际应用。
1)更强的推理能力: OpenAI在9月份推出了o1系列模型,通过引入“思维链”(Chain of Thought)推理方法,使AI能够像人类一样逐步思考问题,大幅提升了复杂问题解决能力。o1 系列尤其擅长处理复杂的多步骤任务,特别是在编程、数学推理和文档分析等高难度任务中表现出色。以编程为例,o1-preview 能够理解代码逻辑,优化算法,甚至应对高级代码调试问题;在数学领域,它可以处理复杂计算并做出抽象推理。在2024 年 12 月 ”OpenAI 12天“最后一天,OpenAI宣布了其最新的 AI“推理”模型 o3 和 o3-mini,这些模型使用 OpenAI 所谓的“私有思维链”,其中模型会暂停以检查其内部对话并在响应之前提前计划,您可以将其称为“模拟推理”(SR),这些模型建立在今年早些时候推出的 o1 模型 之上,提供这些模型以供公共安全测试和研究访问。与 o1 相比,o3 在复杂任务(包括编码、数学和科学)中表现出更高的性能。OpenAI 报告称,o3 在 GPQA Diamond 基准测试中获得了 87.7% 的分数,该基准测试包含未在线公开的专家级科学问题,在评估 AI 处理新的、具有挑战性的数学和逻辑问题的能力的 ARC-AGI 基准测试中,o3 的准确率是 o1 的三倍。
OpenAI 宣布这一消息之际,其他公司也在开发自己的模拟推理(SR) 模,谷歌宣布推出 Gemini 2.0 Flash Thinking Experimental,DeepSeek 推出了 DeepSeek-R1,而阿里巴巴的 Qwen 团队发布了 QwQ,他们称之为 o1 的第一个“开放”替代方案。
2)超长上下文窗口: 2024年3月份月之暗面的Kimi智能助手配备了高达 200万上下文窗口,可以处理更长的文本信息,适用于长篇文档分析,并生成具有深度理解的总结等任务。Google在2024年5月 I/O 2024开发者大会上宣布Gemini 1.5 pro支持100万token长上下文,通过订阅Gemini Advanced开放支持35种语言的100万token长上下文使用,Gemini 1.5 pro继续推进支持200万token长上下文。
3)多参数模型: 华为发布了盘古大模型5.0,包含不同参数规格的模型,以适配不同的业务场景。十亿级参数“盘古E系列”嵌入各种终端的小模型,可支撑手机、PC等端侧的智能应用;万亿级参数的“盘古S系列”超级大模型可处理跨领域复杂任务。
4)针对行业痛点的模型: 大模型开始深入各个行业,解决实际问题。例如,盘古大模型在工业设计、建筑设计、具身智能等领域都有应用。谷歌基于LearnLM学习模型开发NotebookLM和LearnAbout等。顶级创投Y Combinator投资的100家AI初创公司大都覆盖了B2B 软件与服务、金融科技、医疗保健、开发者工具、教育等多个领域AI应用
案例:
●工业设计: 盘古大模型可以让汽车的造型设计时间大幅缩短,设计师可以通过对话、画图与大模型交互,生成3D汽车数字模型。
●建筑设计: 盘古模型可以辅助设计师把草图生成高真实感的3D环绕实景视频,直观验证自己的想法23。
●自动化文档处理: Cost Plus Drugs 广泛使用 Gemini for Google Workspace,据估计,仅 Gmail 中的 AI 功能就为员工平均每周节省了 5 个小时。
●B2B 软件与服务:企业资源规划(ERP),许多公司正在开发 AI 驱动的工具,以改进采购、会计和合规流程。 例如,askLio 构建了 AI 助手来帮助企业采购团队,而 Klarity 则自动化会计和合规流程。
●医疗保健: Bunkerhill Health 利用 AI 帮助医生更早地发现致命疾病,而 BrainKey 则专注于使用 AI 检测和预防认知衰退。
●金融科技:Diligent 利用 LLM 来自动化风险和反洗钱合规流程。
●AI学习伴侣: 谷歌新推出的实验性教育AI工具**“Learn About”**,以对话式学习为核心,为用户提供个性化、互动式的学习体验,通过对话式学习体验,帮助用户掌握知识并深入理解复杂主题。详细参看[谷歌AI学习伴侣Learn About:重新定义学习的未来]
●个性化AI研究助理:谷歌的NotebookLM作为一款AI驱动的笔记工具,为用户提供了自动总结、提取要点、交互式问答、辅助创意**、生成播客等功能,使得笔记不再只是简单的记录,而是一个活跃的知识中心。详细参看[谷歌AI笔记NotebookLM:快速构建个人知识库的利器]
3、AI智能体:从“助手”到“伙伴”
**智能体概念: AI Agent(智能体)可以感知和理解用户的周围世界(如视觉刺激、语言输入和其他以环境为基础的数据),使用复杂推理和迭代规划并在用户的监督下代表用户做出自主决策并采取****行动,以实现预定目标。
**
来自李飞飞AI Agent最新综述
”Agent AI: Surveying the Horizons of Multimodal Interaction“
2024年,AI不再只是被动地执行指令,而是开始展现出自主性和智能性,成为我们工作和生活中的得力助手。AI科技大厂都在该方向发力。
1)Microsoft 推出Copilot Agents,并把 10 个自主 AI 代理集成到 Dynamics 365 中。
Copilot Agents,这是一种人工智能助手,用于执行后台工作,以帮助您更有效地完成工作。使用Copilot Agents,您可以提示 AI 承担根据业务需求自定义的角色。例如,Copilot Agents可以处理订单、自动化流程、为流程和会议添加上下文或根据用户反馈进行学习。
Microsoft 推出了 10 个集成到 Dynamics 365 中的自主 AI 代理,以简化工作流程并提高销售、客户服务、财务和供应链管理的效率:
●销售自主 AI 代理2个:Sales Qualification Agent: 评估客户数据以限定潜在客户并启动外展,使销售团队能够专注于高价值机会;Sales Order Agent 自动执行订单处理,包括确认、交货偏好和跟进,确保更顺畅的销售周期。
●顾客服务自主 AI 代理3个:Customer Intent Agent 将查询路由到适当的团队,从而缩短响应时间并提高客户满意度;Customer Knowledge Management Agent 实时更新 CRM 知识库,确保面向客户的团队能够访问准确和最新的信息;案例管理代理负责监督客户服务案例从启动到解决的整个过程,简化工作流程并提高效率。
●金融自主 AI 代理3个:Financial Reconciliation Agent 识别财务报表中的差异,并提供可行的建议来解决这些差异;Account Reconciliation Agent 可自动执行账户管理任务,从而简化对账流程并减少错误;Time and Expense Agent 跟踪和管理差旅和费用报告,减轻员工的管理负担。
●供应链自主 AI 代理2个:供应商通信代理协助供应商互动、减少延误并监控交付计划以确保顺利运营;Scheduling Operations Agent 通过根据人员可用性和技能集分配任务来优化现场操作,从而改善资源分配。
**2)Google基于专为“智能体时代”设计的 AI 模型Gemini2.0,构建系列智能体应用研究原型来探索这个新领域。详细参看[【原创】面向智能体时代谷歌AI模型Gemini2.0能力解读]
●通用AI助手: 谷歌的Project Astra 探索通用AI助手的未来功能,可以理解用户语音指令、调用手机摄像头和传感器信息来完成各种任务,如导航、物体识别、多语言实时翻译等。
●浏览器AI助手:谷歌的Project Mariner从浏览器探索人机交互,支持通过代理完成多个步骤的任务执行,能够理解和推理浏览器屏幕中的信息,例如文本、代码、图像和表单等,并通过 Chrome 扩展程序帮助用户完成任务,例如查找信息、填写表单、购物等。它通过一个实验性的Chrome扩展程序在浏览器中运行。
●机器人代理:谷歌Gemini2.0可以理解物理世界,理解3D空间环境和物体,这些功能可以用于带有代理的机器人,在日常物理环境中为你提供帮助。利用空间推理能力,帮助用户完成物理世界的任务。
●Jules 代码代理: 这是一个 AI 驱动的实验性代码代理,可直接集成到 GitHub 工作流程中。可以帮助开发人员修复错误、编辑和验证代码,并在开发人员的监督下管理任务。可自动执行Python和javascript编码任务。微软去年为 GitHub Copilot 引入了类似的体验,它可以识别和解释代码,同时还能推荐修改和修复错误。 Jules 将与微软的产品竞争,也将与_Cursor_等工具竞争,甚至与 Claude 和 ChatGPT 的编程能力竞争。
●数据科学代理:谷歌的Colab 允许任何人上传数据集并在几分钟内获得见解,Colab极大地简化数据分析的流程和处理效率。
3)Anthropic的Computer use代理
最新版本的 Claude 3.5 Sonnet,在通过适当的软件设置运行时,可以按照用户的命令在计算机屏幕上移动光标,单击相关位置,并通过虚拟键盘输入信息,模拟人们与自己的计算机交互的方式。使 AI 能够像人类一样直接与计算机软件交互,将解锁当前一代 AI 助手根本无法实现的大量应用程序。
4)OpenAI自主 AI 代理推进
为了重新定义人工智能领域,OpenAI 正准备在 2025 年推出其新的 AI 代理“Operator”。这个创新的代理旨在自主管理各种任务,从复杂的编码项目到全面的旅行计划。初始版本定于 1 月发布,将采用研究预览的形式,为开发人员提供 API 访问权限。这种战略方法旨在收集关键的反馈和测试数据,为更精致、更强大的产品奠定基础。
5)字节Coze自定义AI智能体平台
Coze是字节一站式AI应用开发平台,允许用户自定义AI智能体,并自定义智能体的角色、功能和回复限制。 它提供了一个平台,让用户可以快速构建各种问答Bot,从简单的问答解决方案到复杂的对话处理。
- 百度千帆AgentBuilder智能体开发工具
百度推出的一个面向开发者和企业的智能代理(Agent)构建平台,旨在帮助用户快速构建和部署智能化的AI代理(Agentic AI)系统。它利用百度在人工智能、自然语言处理(NLP)、自动化决策和机器学习等领域的技术积累,提供了一个简化开发流程的工具,适用于多种场景下的自动化任务执行、智能客服、决策支持等应用。
各家AI科技大厂也正向Agentic AI 这种更为复杂和自适应的系统,超越了传统 AI Agent 的局限,具有更高的灵活性、智能化程度和决策自主性方向迈进。
4、AI硬件:从“云端”到“本地”
2024年,AI硬件的发展也取得了显著进展,AI计算能力不再局限于云端,而是开始走向本地设备。
1)AI PC: 微软推出了Copilot+ PC,配置了高性能神经处理单元 (NPU)和本地小语言模型(SLM),可以在本地运行生成式AI流程,而不是通过云端运行,Copilot+ PC 比搭载 M3 的 MacBook Air 快 58%。
2)人形机器人:
*特斯拉Optimus机器人:与人类能够流畅交流,具备了融入日常生活的潜力,能够协助处理家务、随着音乐起舞、提供饮料和小零食,玩石头剪刀布(详细参看[特斯拉We, Robot发布会综述:未来交通和生活方式的大胆预想。
*1X Technologies推出的NEO人形机器人:旨在为家庭用户提供智能、安全且可靠的机器人伙伴,NEO体型轻盈且柔软,配备软垫套装一样的柔软外壳,能够在家居环境中与人类无缝共存。不同于传统的刚性液压系统,NEO采用了仿肌肉解剖结构,使其能够以极高的精度完成各种复杂任务,甚至能够以恰到好处的力度处理易碎物品,如鸡蛋或玻璃杯。NEO的另一个显著特点是其非语言交流能力。它能够通过手势、肢体语言和语音指令与人类互动,几乎无需使用文字或复杂的编程指令。想象一下,当你走进房间时,NEO能够通过一个简单的点头指示便理解你的需求,主动为你递来物品或执行其他日常任务。这种直观且自然的互动方式,使NEO不仅仅是一个冷冰冰的机械设备,而是一个懂得你需求的智能助手。
*国内众多人形机器人公司也大放异彩,如宇树科技机器人超强运动能力、银河通用商超场景应用、星尘智能多才多艺等。
3)自动驾驶:
*特斯拉的自动驾驶出租车Cybercab**:Cybercab外观小巧灵活,取消了方向盘、踏板和后视镜,完全由特斯拉的无监管自动驾驶技术控制**。车内设计极简,只有少数控制按钮,乘客可以通过触摸屏选择目的地。这款车的蝴蝶门设计不仅外观时尚,还在狭窄空间内方便乘客进出。车内双座布局为乘客提供了更多的腿部空间。Cybercab采用独特的感应充电能力,无需传统的插拔充电枪,大大简化了充电流程。
*Waymo的Waymo One:其自动驾驶出租车服务Waymo One正在逐步扩大运营范围,目标是实现完全自动驾驶(Level 5)。然而,技术挑战、法律法规以及公众接受度等方面仍然是Waymo面临的主要障碍。随着技术不断演进,Waymo的自动驾驶系统有望在未来几年内得到更加广泛的应用。
*百度的萝卜快跑:百度的萝卜快跑在武汉的试点引起轰动。“萝卜快跑”作为百度在自动驾驶领域的重要布局之一,通过Apollo平台的技术优势,已经在中国的多个城市开展了自动驾驶出租车服务。随着技术的不断进步和商业化应用的扩展,萝卜快跑有望在未来成为中国乃至全球领先的自动驾驶出行平台之一。
3)全息AR眼镜: Meta发布了全息AR眼镜Orion,将虚拟与现实世界相结合,让佩戴者可以身临其境地感受数字世界,Orion眼镜可以让佩戴者体验全息乒乓球游戏
5、AI与科学:从“工具”到“伙伴”
2024年,AI在科学研究领域的作用日益凸显,不再只是辅助工具,而是成为科学家们的合作伙伴。
1)蛋白质结构预测: 大卫·贝克(David Baker)、戴米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M.Jumper)因在蛋白质设计和蛋白质结构预测领域作出的贡献荣获诺贝尔化学奖。他们开发的AlphaFold AI模型解决了蛋白质结构预测难题,为药物研发等领域带来了巨大突破。AlphaFold的核心是一种名为“距离预测”的深度学习模型。它通过预测蛋白质序列中氨基酸残基之间的空间距离关系,并根据这些距离信息重建蛋白质结构。
2)数学推理: 谷歌DeepMind开发了AlphaProof数学推理模型和AlphaGeometry几何求解模型,在数学奥赛中达到银牌水平,展现了AI在数学领域的强大潜力。详细参看[数学AI的黎明:AI在数学奥赛中的突破]
●芯片设计: Google DeepMind推出了AlphaChip,利用AI加速芯片设计,显著提升了芯片布局的效率和性能。AlphaChip利用深度强化学习技术从空白网格开始,AlphaChip 一次放置一个电路元件,直到完成所有元件的放置。然后根据最终布局的质量进行奖励。采用新颖的“基于边缘”的图形神经网络使 AlphaChip 能够理解芯片组件之间的复杂关系并学习互连芯片组件之间的连接关系,AlphaChip 能够更好地预测不同布局方案对整体性能的影响,从而做出更明智的决策。详细参看[深度解读AlphaChip:AI如何革新芯片设计]
●量子计算: 谷歌推出了Willow量子芯片,在随机电路采样 (RCS)基准测试中,Willow芯片在五分钟内完成了一项计算任务,而完成同样的任务,即使是当今最强大的超级计算机也需要10的25次方年(10 septillion years)。10的25次方年,这个数字比已知的宇宙年龄还要长。这一惊人的对比充分显示了量子计算的巨大潜力,以及Willow芯片的卓越性能。它证明了量子计算机在特定计算任务中,已经远远超越了经典计算机的能力。详细参看[谷歌Willow量子芯片:天文级算力跃升(5分钟搞定超级计算机亿万年计算任务)]
●药物研发: Insitro利用机器学习和大数据技术加速新药发现和开发过程。Cradle利用生成式人工智能帮助科学家设计和制造蛋白质。
六、AI伦理与监管:从“野蛮生长”到“规范发展”
2024年,随着AI应用的普及,人们开始更加关注AI伦理与监管问题。
1)欧盟AI法案: 欧盟通过了《人工智能法案》,旨在成为全球首部全面规范AI技术的法律框架,对AI系统进行风险分类监管。详细参看[《欧盟AI法案》即将生效:重塑AI全球格局]
2)透明度与问责: EU AI Act强调AI系统的透明度,要求用户有权知晓AI系统的决策逻辑,并明确AI系统的责任归属.
3)隐私保护: EU AI Act要求AI系统必须遵循《通用数据保护条例》(GDPR),确保用户的数据在被收集、存储和处理时得到充分保护。
4)负责任的AI开发: AI开发者需要在设计和部署AI系统时,考虑伦理和安全问题,确保系统的公平性和透明度。
7、AI未来展望
2024年是AI技术飞速发展的一年,但同时也面临着许多挑战。未来,AI将继续深入渗透到各个领域,成为我们生活和工作中不可或缺的一部分。
1)更加个性化: 未来的AI产品和服务将更加注重个性化,能够根据用户的具体需求提供定制化的解决方案。
2)更加智能: 未来的AI将更加智能化,能够理解人类的意图,并与人类进行更自然的交互。
3)更加普及: 随着AI技术的不断成熟,AI将逐渐融入我们的日常生活,成为我们不可或缺的一部分。
4)AI伦理日益重要: 随着AI的广泛应用,关于数据隐私、算法偏见和AI的社会影响等问题将变得越来越重要。
5)人机协作: AI将成为人类的合作伙伴,而不是替代品,通过人机协作共同解决问题,创造更美好的未来。
结语
2024年,AI的发展速度之快,应用范围之广,都超乎我们的想象。从生成式AI的“多才多艺”,到大模型的“深入行业”,再到AI Agent的“智能助手”,AI正在深刻改变着我们的生活。与此同时,AI伦理与监管也日益受到重视,为AI的健康发展提供了保障。未来,AI的潜力无限,挑战与机遇并存。
AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓