去年7月,有道发布了“子曰” 教育大模型。时至今日,已过去16个月。在这段时间里,“子曰” 化身虚拟人,走进课堂,还植入了硬件设备。有成功,亦有失败。然而,我们的团队始终奋战在大模型教育应用的第一线。值此之际,与大家分享我们的收获、教训与体会。
01.共识:AIGC市场潜力巨大,教育领域天然适用大模型
大模型和AIGC技术适合教育领域,这个已然成为行业共识。在我国,有1.5亿中小学生以及近5000万大学生,然而教师总数却不到2000万,平均10个学生才有一位老师。教师数量不足是教育领域长期存在的矛盾,这与医疗领域的情况颇为相似。
与以往技术相比,大模型技术更能够有效提升“教”与“学”这两个本质上属于思维活动的效率,因而从长远来看,其非常适合教育领域。
自两年前ChatGPT问世以来,我的观点始终是“大模型的浪潮将持续十年,应用层机会巨大”,2009年,3G正式上线,同年iPhone 3GS上市,由此正式拉开了移动互联网的序幕。在随后的十年时间里,每隔一到两年便会有革命性的应用或软件平台出现,而像抖音这样的巨量应用,则是七年后才出现。我认为大模型会呈现类似的发展趋势,对科技产业的推动作用将长达十年甚至更久。
如今,OpenAI的年化收入已经达30亿美元,国内产品豆包的日活跃用户数DAU已接近1000万,Talkie这样的娱乐应用也拥有可观的体量。如果说去年这种看法还比较小众,那么今年可能更多的人会持有类似的观点(当然,唱衰大模型的人也明显增多了,这也是很自然的事情)。
具体而言,在教育领域,三大场景逐渐成为关键应用点:
-
学校场景:AI定位于“教学助手”,能够协助老师备课,解决学生作业问题以及进行学习答疑。目前,在这些方面已经涌现出不少出色的应用。其对应的商业模式为2B2G,是教育信息化业务的进一步演进。
-
家庭场景:AI定位于“家庭教师”,属于典型的2C场景,由于妈妈们消费能力强大,家庭教育场景也成为关键场景。AI可以助力完成孩子的学习指导、对学习进度的智能督促,还能协助进行学习规划和志愿填报等任务。
-
自学场景:AI定位于“学习伙伴”,这是与家庭场景相关联的另外一个重要的2C大场景,且更多地以学生为中心。它是传统学习App和学习硬件的大模型升级,能够帮助学生更好地进行自主学习,完成AI练习、AI答疑以及提供心理陪伴等任务。
从智能能力上分层,是审视AI应用的另外一个视角,可以直观地将大模型在教育应用中的智能能力划分为四层:
-
L1 交互问答。通过文字和语音方式实现问答交互,这属于系统的QA人工智能应用。
-
L2 人性化辅导。这一层目前普遍能够达到,具有更个性化的上下文,更自然的文字和语音交流,并且带有情绪价值输出,是新型的AI机器人,相比L1,用户价值有了大幅提升。
-
L3 主动辅导学习。更进一步,机器开始具备一定的教学能力,能够在特定场景(例如英语学习)中,有效地引导特定群体(如雅思学生或少儿)进行高效学习。这是当前很多新产品的努力目标。
-
L4 虚拟老师。作为高级形态,AI虚拟老师需要接近真人老师的全面能力,能够在一定环境下代替人类老师开展工作,这要求机器具备很强的基础AI能力,包括知识储备、长期记忆、各科解题能力、教学方法,以及应用心理学和教育学的能力,同时内置多科教学内容。当然,也需要具有很强的安全性和价值观保障。
目前L2是很多产品已经具有的能力,L3是业内不少产品团队正在努力的目标,而随着基础模型认知能力的快速提升,L4虚拟老师的实现或许并不遥远。
02.两个已经能跑通的教育大模型应用方向
自ChatGPT诞生的两年以来,众多团队对教育类的大模型应用进行了大量尝试,有道的团队也展开了公司历史上最为集中的快速试错历程。所有团队面临着“如何利用大模型改造和升级业务”这一问题。
作为商业公司,使产品实现增长并跑通商业模式是团队必须跨越的关卡。以下是我们认为已经基本跑通的两个应用方向。
首先,语言类学习是大模型可以很好支持的应用领域。大模型本来就具有强大的语言能力,还具备跨语言交互功能,十分擅长聊天,堪称天然的优秀语言教师苗子。基于此,我们大力推进了Hi Echo项目,在国外,韩国的Speak、美国的Duolingo等也在这一方面进行了诸多尝试。
在项目实施过程中,我们也获得了一些起初未曾有过的认知。一方面,我们发现对语言学习类应用,良好的视觉形象对产品有巨大的推动作用,Hi Echo的高保真虚拟人是该产品超越同类产品的重要原因。今年,我们还推出了可爱的卡通版儿童模式,同样深受孩子们的喜爱。
第二个认知,垂直化落地到具体场景非常有帮助,除了儿童版,Hi Echo还与雅思官方合作推出内容,这两个垂直内容颇为成功,提升了整体的留存率、活跃度和付费率。当前,Hi Echo实现了在不错规模下连续数月的持续盈利。
第二个应用是全科答疑,我们认为也已成功跑通。全科答疑的难度比语言学习大得多,并且基础模型在所有学科中需求最大的数学方面尚有不足,因此,在去年的时候,我们团队并不确认其一定可行。然而,通过一年持续打磨模型和产品,目前我们发现用户对基于大模型的全科答疑产品(有道“小P老师”)非常欢迎,其用户自然流量增长较快,且解决用户问题的成功率较高。
我们看到,用户对于全科答疑产品期待是多方面,要做出一个好的答疑产品,需要在大量细节上都做到位:
-
基础答复质量:通过为模型增加针对性训练语料,以及采用RAG等知识库方法,可以使产品达到用户可接受的基础质量。同时,行业基础模型方面的不断革新,也为质量的进一步提升带来了机会。
-
加强学习方法类功能:学习产品垂直性的一大体现,就在于用户期望产品能够“授之以渔”。因此,小P老师的题目知识点、考点分析以及同类题推荐等功能受到了用户的欢迎。
-
用好摄像头:学习答疑与其它非教育聊天类产品相比,一大特点就是输入复杂,涉及公式、图片以及排版复杂等情况。所以,输入是否方便准确,是用户是否喜欢用该产品的一大关键。目前,多模态模型既有优势也有缺点,所以有道小P使用一套混合的方法来解决复杂输入的问题,这里未来的提升空间也很大。
除了上述两个方向,我认为还有很多可做的方向,在此简单列举一些:
-
大学课程助教:大学学习本身的自主程度和数字化程度就比较高,所以能辅助教授执行教学辅助任务的智能助教将会非常有用。对于学生来说,可以提供练习、复习、查询、课程相关通知等一系列服务,具有较高价值。高教社与有道合作的中国大学MOOC,最新上线了课程AI助教模块,相信会越来越好用。
-
智能备课:对于各个学段来说,老师根据所教学习群体的特点进行针对性备课,一直是教学实践过程中的重点。大模型具有较强的交互能力、知识能力和智能体能力,应该可以针对备课场景开发出好用的产品。
-
心理陪伴:用大模型很强的交流和情绪感知能力,可以辅助青少年心理教育,提供良好的个性化服务,同时保护学生的隐私,也能缓解这个领域人力严重不足的问题。
03.大模型在文科领域已经“超人”,在理科方面也不会太久
在很多文字类以及记忆性、直觉性强的任务方面,例如文字润色、知识问答、文秘助理等,大模型的能力已经超越人类。映射到教育大模型上,在外语学习、语文分析以及各文科(英语、语文、历史、地理)的解题和答疑方面,已经达到了相当高的质量,通过精心的产品设计,完全可以打造出一批具有前景的产品。相对来言,在数学、物理等理科方面,大模型的基础能力还较为薄弱。
那么此时,我们必然会提出一个问题:大模型的理科能力未来是否能够快速提升?又需要多久能在理科方面达到与许多文科领域一样“超人”的程度呢?
我的猜测是大模型在理科方面不需要太久,快则1-2年时间,也会在很多任务上达到超越人类的水平。
这只是一个“有一定依据的猜测”,也可能完全错误。不过,大家可以看看我的逻辑,权当娱乐。
大家最为熟悉的AI超越人类的故事,发生在围棋领域,实际上,机器的棋力已经远超人类最高水平棋手。下图展示了AlphaGo系列引擎的棋力Elo分值与目前世界排名第一的申真谞的对比:
最右侧的2017年的AlphaGo Zero得分为5185分,高出申真谞1342分。这是什么概念呢?基于Elo这个胜率指标来计算,若你与对手相差800分,胜率大约为1%,即下100场能胜一场。所以,1342分的差距意味着胜率不会高于千分之一。因此,在围棋领域,目前机器就如同神一般的超人存在。
那么,AlphaGo Zero这套方法是否具有代表性?它能否与大模型有所结合呢?答案是,这是目前很多工业界和学术界人士正在努力实践和证明的事情。
AlphaGo Zero是一个窄领域(棋类)内的自我学习(Self-Learning)人工智能,使用的根本性方法是增强学习(Reinforcement Learning),其基本学习过程与最初的AlphaGo有很大不同,初版AlphaGo是通过学习人类棋谱来提升自己,而AlphaGo Zero则是直接基于围棋规则,没有任何棋谱,在大量模拟棋局中通过RL增强学习算法来提升自己,从而达到超越人类的状态。实际上,增强学习方法在很多时候仅需要一套封闭的规则(下棋,或者机器人的机械运动规律,或者数学公理),以及希望到达的目标的衡量方法(奖励函数,Award Function),就可以通过大量模拟训练来不断提升水平。
目前,大模型训练中使用的RLHF(带人类反馈的增强学习)就是一个简化版本的增强学习,而Andrej Karpathy等人也很早就认为RLHF过于简单,限制了大模型的能力。所以各种信息都表明,将增强学习、过程反馈以及思维链等一系列在多个需要深度思考的窄领域中行之有效的方法应用到大模型训练中,应该可以快速提升模型的数理推理能力。近期大火的OpenAI o1,其基于的重要方法正是增强学习,再加上思维链。
因此,从这个角度来说,我猜测大模型的数理推理能力快速提升是可以预期的,机器能够自行证明全新的数学定理,甚至独立进行科学研究的未来可能并不遥远。
04.基于2C App和学习硬件推动教育大模型发展
回到教育大模型,除了涉及做什么学科,在什么场景应用之外,还有一个关键问题是商业模式——是2C,2B,2G,还是有其它收获商业价值的方法。
首先,2B2G逆流前进。对于很多团队而言,包括大模型“六小虎”,2B2G都是基础的商业模式。通过有远见的企业或政府采购来落地应用,是许多新技术的开端方式,对大模型也不例外。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。