PC 时代:Windows
"1985 年,Windows 1.0 的发布开创了个人计算的新纪元。
它解决了一个根本性问题:让普通人能够轻松使用计算机。
统一的图形界面、直观的操作方式、标准化的开发环境,
Windows 构建了第一个真正意义上的软件生态系统。
然而,这是一个相对封闭和单一的世界。
软件需要安装,更新要手动,使用场景局限于办公桌前。
它就像一座固定的城堡,坚固但缺乏灵活性。
移动时代:App Store
"2008 年,当乔布斯发布 App Store 时,你是否意识到这是一场革命?
还记得第一次用手机下载应用的感觉吗?
一键安装,即点即用。App Store 让软件走出城堡,变成了口袋里的百宝箱。
朋友圈、外卖、打车、支付…每个 App 都是一个精致的工具。
但是,你是否也经常为手机里塞满了各种 App 而困扰?
为什么要在不同 App 之间来回切换?
为什么它们不能像我们的大脑一样,自然地协同工作?"
近日,我参加了火山引擎 Force 冬季大会
在 COZE 1.5 的演讲,
我看到 AI 时代 AI 应用平台,
下一代 APP Store 新范式。
COZE AI 应用开发平台:
字节对扣子的描述是:新一代 AI 应用开发平台
但我觉得,字节的野心不止是应用开发平台,
因为,我倔强认为,
未来,人人都是 AI 创作者,
亦是 AI 的协作者。
包括,演讲者开篇举例几岁开始用
COZE 实现了自己的 AI 应用的封装。
所以,就有以下更新。
COZE 重点更新:
Project IDE 简介
扣子上现在可以开发和发布拥有完整前后端的 AI 应用,本期支持发布为 API、扣子商店、模板,未来开发 API、Web SDK 可以期待更多发布渠道的上线。
讲人话:
未来你可以把你设计 AI 工作流封装到你的应用,包括硬件终端。
以一个具体场景展现:
我打开笔记本,登入扣子平台。她的眼前是一个干净的开发界面。
# 前端界面:一个简单的AI写作助手
@app.route('/')
def index():
return render_template('index.html')
# 后端逻辑:处理用户输入并调用AI
@app.route('/generate', methods=['POST'])
def generate_text():
user_input = request.json['prompt']
response = ai.generate(user_input)
return jsonify({'result': response})
完成后,她看着部署选项:
-
“发布为 API” - 让其他开发者能够调用
-
“发布到扣子商店” - 直接面向终端用户
-
“存为模板” - 供其他开发者参考和复用
点击部署,几秒钟后系统提示:“部署成功!”
我打开扣子商店,自己的应用已经安静地躺在那里,等待被发现和使用。
未来,接口进一步开拓。
【重点】UI Builder
扣子开发工具中增加了 UI Builder,一口气更新了 17 个 UI 组件,终于不再只有一来一回的对话式交互了!可以期待一波移动端适配的组件!
-
各种图生图、图文创作、文件总结,不再需要多轮的对话式交互,可以通过上传框/输入框+展示区实现
-
可以通过导航条切换功能页面,而无需依赖于自然语言指令切换功能场景
-
开关、下拉菜单、数值输入框,更好地规范用户的输入,避免模型执行不稳定,一次多个输入可以由表单完成
-
由按钮等组件直接触发事件,精准调用工作流,不再依赖模型调用函数
- 无限画布,像用 figma 做设计一样搭建应用
比如:
讲人话:
就是我们设计的 AI 工作流产品可以更可视化,人性化了
【重点】一键发布到小程序
可直接搭建 H5/小程序类移动端页面,并直接托管发布到微信小程序和抖音小程序
-
~20 种 UI 组件
-
十几种移动 UI 模板
-
对话式 UI 和交互式 UI 均提供
更灵活可控的数据读写
扣子工作流中增加了知识库写入能力、SQL 查询数据库能力、知识库查询时的查询改写和结果重排开关。
这些场景可以更好地实现了:
-
制作一个 AI 笔记本,每次将碎片化的思考输入,后续可以用自然语言来搜索/整理
-
制作一个知识库文件上传的页面,A 部门和 B 部门可以分别上传文件到各自的知识库里
-
制作一个客服质检管理页面,当质检人员对 AI 回复感到满意时,可以将该问答对存入知识库以备后续调用
-
建立一个健身打卡的应用,可以根据用户的需求准确查询调取特定日期、类型的打卡记录
-
建立一个学习语言的应用,可以记录用户的错题并调取用来复习
多模态能力升级
最新多模态模型抢先体验
丰富的多模态模型,今天新发布的豆包·视觉理解模型、豆包文生图 2.1 和 豆包音乐模型,在扣子都能通过插件的方式第一时间体验到,期待接下来会有一大批有意思的多模态 AI 应用在扣子诞生!
生图模型:一键生成可直接使用的海报;实现表情包、桌面壁纸、手机壳自由
语音 OpenAPI :低延时、定制化、随时打断和音色克隆
优势点:
-
精准的识别:使用大模型的 ASR 进行语音转文本,具备上下文理解能力(比如上文出现过的名词能在识别中复用,说话风格和代称也有更好理解),并对噪声、垂直领域、中英混说等复杂场景识别效果提升
-
强大的 AI Agent 能力:扣子作为 AI Agent 搭建平台,包含了 Agent 各项能力,如记忆(文件盒子、数据库、变量)、知识(文本、表格、照片)、技能(插件、触发器)、编排(工作流、图像流)等
-
低延迟:使用了 RTC(Real-Time Communication)方案,把链路中的延迟充分降低
-
自然的语音效果:使用大模型的 TTS 进行文本转语音,根据上下文,智能预测文本的情绪、语调等信息;生成超自然、高保真、个性化的语音,在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人;同时对中英文混说也有很好的支持。
讲人话:
信息输入输出增加了图片信息和声音信息,
声音可以是你的克隆声音
这时候,各种老师,家长们有福了
端硬件
💡
一个场景:未来 2025 年深圳某智能硬件展区。
小王正在演示他们的新产品:一个小巧的办公桌面音箱,顶部有个呼吸灯在柔和地闪烁。
"看这里,"他指着音箱背面的接口,“Type-C 供电,3.5mm 音频输出,还有这个…”
他手指点了点一个带有特殊标识的端口:“扣子硬件认证接口。任何通过认证的 AI 模块都能即插即用。”
展台上,几个不同形状的 AI 模块整齐排列:
离线语音识别模块
实时翻译模块
本地大语言模型模块
"插上去就能用,"他拿起一个模块,“不需要联网,也不用担心数据安全。企业可以根据需求随时更换。”
旁边的显示屏正播放着演示:一位员工对着音箱说:"帮我总结下午会议的要点。"呼吸灯闪了闪,音箱开始用自然的语气复述会议内容。
"未来这个端口会成为标准配置,"小王说,“就像 USB 一样普及。”
他打开手机里的扣子硬件开发平台,上面显示着最新的模块认证指南。
AI 应用平台 = 下一代 App Store
PC 时代
平台,用户,交互端,交互方式,创造方式,分发模式
智能手机
平台,用户,交互端,交互方式,创造方式,分发模式
AI 时代
不是软件吞噬硬件,
也不是硬件吞噬软件,
是一个
从软硬协同到 AI 流程,
从编码到提示工程,
从下载到即时使用。
早上醒来,你说:‘帮我规划今天的行程。’
这个简单的请求会触发什么?
过去:
你需要打开日历 App 查看安排
打开地图 App 查看路线
打开天气 App 查看预报
打开邮件 App 确认会议…
现在:
AI 助手直接整合所有信息
理解你的习惯和偏好
主动提供完整的建议
随时根据变化调整方案
也许有一天:
我们不再区分什么是应用,什么是平台
不再关心某个功能在哪里,
只需要表达我们想要什么,
然后看着它自然地实现,
"这个愿景可能看起来很理想化,
但技术的发展往往比我们想象的更快。
这是正在发生的改变。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。