Sam Altman 深夜发布一条推文:her。大半夜看到这里觉得一定不简单,果真又放大招了!
OpenAI 刚刚发布了一款名为 GPT-4o 的“旗舰级”生成式人工智能模型。它不仅有超强的文本、图像、视频和语音处理能力,关键还免费。
当你打开 ChatGPT,如今它已经变成了一个无所不能的语音助手,这一切越来越接近 2013 年的那部电影《Her》。没想到 2050 年才会发生的事情,2024 年 OpenAI 就让我们大开眼界。
我们来简单回顾一下发布会内容:
0. ChatGPT 桌面版及用户界面优化:ChatGPT 桌面版发布。新的用户界面旨在提供更自然、轻松的交互体验,减少用户对界面的关注,更专注于与模型的协作。
1. 新的 GPT-4o 模型:GPT-4o 中的"o"代表“omni”,意味着模型的全能性,源自拉丁语“omnis”,表示“全部”或“所有”的概念。GPT-4o 能够实时对音频、视觉和文本进行推理,处理超过 50 种不同的语言。
2. 免费开放与 API 的经济优势:GPT-4o 将向免费用户开放,但会限制数量,超过限制后将自动降级到 GPT-3.5。GPT-4o 将开放相应 API 给开发者,价格是 GPT-4-turbo 的一半,速度是其两倍。
3. 与人类对话反应时间相似:GPT-4o 可以在 232 毫秒内对音频输入做出反应,平均响应时间为 320 毫秒,与人类对话反应时间相似。相较于 GPT-3.5 的 2.8 秒和 GPT-4 的 5.4 秒,GPT-4o 的速度和质量都实现了大幅提升。
4. 实时语音助手:从现场工作人员的测试中可以看出,GPT-4o 更像人类,不仅能够感知人类情绪,还能给出适当建议。交流过程中还可以随意打断发言,语音交互丝滑到吓人。演示中还展示了 GPT-4o 的唱歌功能,进一步证明了其语音处理能力。
5. 解决数学等推理问题:ChatGPT 通过实时视频模式能“看见”事物并进行推理。通过手机摄像头,它看到了一道写在纸上的数学题,并帮助两位演示者解题。
6. 编程助理:工作人员打开电脑页面,只需要 highlight 代码,并通过语音交流,GPT-4o 就可以给出答案。
7. 实时翻译:现场展示了意大利语和英语的即时互译,非常快速且准确。
8. 情绪感知:最后演示人员拍摄一张自拍照,让 ChatGPT 通过他的面部表情推断情绪,成功识别出他愉快和兴奋的情绪状态。
尽管此次发布会没有提及 GPT-5,但通过 GPT-4o 的发布,Sam Altman 放的这些“神奇”大招,我们也可以看到其对 AI 技术持续进步的承诺,也预示了语音交互和 AI 技术的新纪元。
直播回放地址:https://www.youtube.com/watch?v=DQacCB9tDaw
ChatGPT
阅读推荐
ChatGPT 初识
《这就是ChatGPT》
[美] 斯蒂芬·沃尔弗拉姆|著
WOLFRAM传媒汉化小组|译
OpenAI CEO,ChatGPT 之父山姆·阿尔特曼推荐,国内首部由世界顶级 AI 学者、科学和技术领域重要的革新者、“第一个真正实用的人工智能”搜索引擎 WolframAlpha 发明人斯蒂芬·沃尔弗拉姆对 ChatGPT 最本质的原理的解释的权威之作!
《ChatGPT:人类新纪元》
马占凯 | 著
“搜狗输入法之父”、美团光年 AGI 布道师马占凯新作。本书用生动浅显的语言,用鲜活的故事,讲述 ChatGPT 前世今生、AI 发展史,获得罗永浩、梁宁、戴雨森、王建硕、王玥等大咖倾情推荐。附赠中国 AGI 全景图、ChatGPT 全景图拉页,让你对 ChatGPT 及 AGI 相关产业的发展一目了然。
大模型应用类
《大模型应用开发极简入门:基于GPT-4和ChatGPT》
[比] 奥利维耶·卡埃朗,[法] 玛丽–艾丽斯·布莱特 | 著
何文斯 | 译
大模型应用开发极简指南:了解 GPT-4 和 ChatGPT 的工作原理 2 小时上手开发,快速构建大模型应用并实践提示工程、模型微调、插件、LangChain等,送配套代码。大模型一线创业者、应用技术专家联袂推荐:宝玉、张路宇、孙志岗、邓范鑫、梁宇鹏(@一乐)、罗云、宜博。
《LangChain编程:从入门到实践》
李多多(@莫尔索)| 著
教你利用 LangChain 简化大模型应用开发,本书深入解析 LangChain 六大组件:模型输入/输出、检索、链、记忆、代理与回调,全方位掌握核心功能。从 0 到 1 构建多模态智能机器人,理论结合实践,轻松开启大模型应用之旅。随书附赠详尽示例代码,快速上手,轻松驾驭大模型技术。讲解细致入微,学习路径清晰明了,与时俱进,助你成为大模型应用开发达人。
《智能文本处理实战》
达观数据 | 著
“吴文俊人工智能奖”获奖企业——达观数据带来的一线行业案例经验。众多来自清华、北大、哈工大、同济、复旦、东北大学、中科院学者推荐!新浪微博、国泰君安等业内企业高度认可!内容覆盖银行、保险、制造、传媒、证券、安防、建工等。
《推荐系统:算法、案例与大模型》
刘强 | 著
为了解决推荐系统学习问题,这本书深入算法工程本质,手把手实操项目代码。内容源自达观数据真实行业案例,为读者呈现 B 端高频规则和策略。大模型时代下的推荐系统如何发展,推荐系统未来的发展趋势本书都有说明。
《信息检索与深度学习》
郭嘉丰,兰艳艳,程学旗|著
孙凝晖院士作序,张亚勤、翟成祥、李航联合推荐!学术大牛带你了解信息检索核心技术、大模型前沿应用挑战。以信息检索系统架构为引导,探讨了神经检索前沿技术,为读者呈现了信息检索领域过去与当前的全貌。三位专家通过其国际领先的科研成果,清晰地呈现了人工智能新时代的基于深度学习的神经信息检索科研现状。
ChatGPT 职场助力
《AI助理:用ChatGPT轻松搞定工作》
杜雨,刁盛鑫 | 著
畅销书《AIGC:智能创作时代》作者杜雨全新力作,写给所有职场人的 ChatGPT 应用书。内容聚焦职场工作效率全面提升,覆盖作图、视频生成、编程、提示词撰写、文案创作、智能体设计等多个场景的需求,用大模型的力量重塑你的工作流程。
本书还获得华尔街知名财经媒体人于超、梅花创投创始合伙人吴世春、PreAngel Fund 创始合伙人王利杰、Oracle Duke 选择奖项目 Moco 作者郑晔联合推荐。无论你是 AI 技术的新手还是有经验的用户,都能从本书中获益。
《利用ChatGPT进行数据分析》
张俊红|著
10 万册畅销书作者,根据 ChatGPT 在数据分析各个阶段的应用情况,按照数据分析师的职业发展路径展开,带你快速上手高效运用 ChatGPT 进行数据分析。
《ChatGPT高效提问:prompt技巧大揭秘》
李世明 代旋 张涛 | 著
本书以通俗易懂的语言,详细介绍了如何编写高质量的提示,引导 ChatGPT 输出优质答案,满足各种信息需求。书中包含详细解释和丰富示例,旨在帮助读者掌握利用 ChatGPT 解决各种问题的实用技能。
《ChatGPT从入门到精通》
黄豆奶爸 | 著
ChatGPT 超牛应用书,涉及 20 多个场景,涵盖高效办公+打造 IP+副业赚钱+新知学习+生活质量提升,粥左罗、肖厂长、孙圈圈、易仁永澄、芷蓝等联合推荐。本书旨在帮助读者了解 ChatGPT 和它背后的技术原理,掌握使用它的方法,并了解它的潜在应用和影响。
《零基础玩转 Stable Diffusion》
关键帧 | 著
为零基础读者量身打造的学习曲线,手把手保姆式教学,内容精彩,业内好评如潮 掌握创作的底层逻辑,提升设计行业的工作效率,一键搞定批量渲染,快速确定风格调性,不再人工试错!
本书从零开始讲述了 AI 绘画的基本知识具体讲解 Stable Diffusion 这个开源绘画引擎工具的本地部署使用和各种基本技巧。内容包括 Stable Diffusion 简介、Stable Diffusion 安装和配置、Stable Diffusion 基础功能、Stable Diffusion 高级技巧、Stable Diffusion 实战案例。
《Stable Diffusion——AIGC绘画实训教程》
孟德轩 | 著
Stable Diffusion 是当下非常受欢迎的 AI 生成绘画创作工具。本书一方面详细介绍了 AI 生成绘画的技术实现,包括文生图、图生图、图片分割等,引导读者了解 AI 生成绘画的具体实现方法和原理。另一方面,本书重点分析 AI 绘画在电商行业、插画设计、游戏行业和建筑行业等的应用,这些实例可以帮助读者更好地了解 AI 绘画的实际应用价值,并激发读者的创新和应用能力。
《零基础玩转Midjourney——打造AI绘画助手》
小甲鱼,袁春良 | 著
由 100 万粉丝青睐的大咖亲自传授经验,近 20 个真实案例,包含卡通 IP 形象、表情包、logo、壁纸、海报、故事绘本、电影分镜等领域。轻松解锁 Midjourney 中近 20 个参数和 20 个指令的精妙玩法。
编程知识储备
《 Python编程:从入门到实践 (第3版)》
[美]埃里克·马瑟斯 | 著
袁国忠 | 译
Python 入门圣经,影响全球超过 250 万读者,长居 Amazon、京东等网店编程类图书榜首,真正零基础,附赠随书代码+配套视频讲解+速查手册,自学无压力。
《Hello 算法》
靳宇栋(@krahets)
动画图解、一键运行的数据结构与算法教程,GitHub Star 63.9k !近 500 幅动画插图,近 200 段精选代码,助你快速入门数据结构与算法。
书中系统介绍了数据结构与算法基础、复杂度分析、数组与链表、栈与队列、哈希表、树、堆、图、搜索、排序、分治、回溯、动态规划和贪心算法等核心知识,通过清晰易懂的解释和丰富的代码示例,以及生动形象的全彩插图和在线动画图解,揭示算法工作原理和数据结构底层实现,教授读者如何选择和设计最优算法来解决不同类型的问题,切实提升编程技能,构建完整的数据结构与算法知识体系。
《深度学习入门:基于Python的理论与实现》
斋藤康毅 | 著
陆宇杰 | 译
深度学习“鱼书”,畅销 10 万册,相比 AI 圣经“花书”,本书更合适入门。本书深入浅出地剖析了深度学习的原理和相关技术,书中使用 Python3,尽量不依赖外部库或工具,从基本的数学知识出发,带领读者从零创建一个经典的深度学习网络,使读者在此过程中逐步理解深度学习。
《BERT基础教程》
苏达哈尔桑·拉维昌迪兰 | 著
周参 | 译
详细讲解十余种 BERT 变体的原理,本书聚焦谷歌公司开发的 BERT 自然语言处理模型,由浅入深地介绍了 BERT 的工作原理、BERT 的各种变体及其应用,书中用简单的文字清晰阐释 BERT 背后的复杂原理,让你轻松上手 NLP 领域的里程碑式模型。
《深入浅出神经网络与深度学习》
迈克尔·尼尔森 | 著
朱小虎 | 译
知名计算机科学家 Michael Nielsen 作品,哈工大研究生课程参考书,李航、马少平等多位业内专家推荐。作者以技术原理为导向,辅以贯穿全书的 MNIST 手写数字识别项目示例,介绍神经网络架构、反向传播算法、过拟合解决方案、卷积神经网络等内容,以及如何利用这些知识改进深度学习项目。