赛博·新闻
1、OpenAI春季发布会:GPT-4o
本周二(5/14)OpenAI重磅发布GPT-4o,可以实时推理音频、视觉和文本。GPT-4o是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短232毫秒内响应音频输入,平均为320毫秒,这与对话中的人类响应时间相似。
2、谷歌召开2024 I/O大会
就在OpenAI发布会后一天,本周三谷歌召开2024年度I/O大会,发布了以下内容:
- Google Search Al版:Al Overviews, 也就是超级加倍版的 Al搜索,非常强的多步推理能力!
- Gemini & Gemma 模型:100万上下文的Gemini 1.5 Flash模型,和200万上下文(需申请)的Gemini Pro模型;
- Al in Google Workspace:借用Gemini的能力,通过Side Panel的方式,打通了Google全家桶;
- Gemini App:手机版的 Gemini 应用,也将支持和 Al 视频对话;
- Veo:视频生成AI,对标 Sora。
3、零一万物发布千亿参数模型、海外单款产品收入将超1亿
5月13日,在零一万物成立一周年之际,低调许久的创始人李开复首度现身,阐述了零一万物这一年在大模型和商业化方面的进展和思考。发布会上,李开复发布了千亿参数 Yi-Large闭源模型,公开了开源闭源双轨大模型的战略布局。
4、腾讯混元文生图大模型全面开源
腾讯云宣布其混元文生图大模型全面升级并开源,该模型支持中英文双语输入及理解,特别强调了对中文的原生支持和多轮对话的理解能力。卡兹克对此进行了体验:我们也终于有了自己的开源AI绘图大模型,它叫,腾讯混元。
5、OpenAI:我们联姻了 Reddit - 美国贴吧
Reddit 和 OpenAI 宣布了一项合作,表示会更深的打通,包括:
- OpenAI 会使用 Reddit 的数据 API,结构化访问其内容,尤其是各类话题。
- Reddit 将基于 OpenAI 模型,来提供新的 AI 服务。
- OpenAI 将成为 Reddit 的广告主。
6、大模型也要打价格战?字节先做了个示范
字节推出极具性价比的豆包大模型,pro-32k版的模型推理输入价格为0.0008元/千tokens,相当于一元钱就能让豆包生成3本三国演义,比行业价格低 99.3%,大模型to B开启了激烈的价格战。
7、ChatGPT 新功能:“ChatExcel” 已灰测
ChatGPT将推出“ChatExcel”新功能,包括打通Google Drive和OneDrive,双栏对话表格和自助图标生成功能。这些功能属于GPT-4o独占,已经开始灰度测试,将在未来几周全量覆盖。
8、OpenAI联合创始人兼首席科学家llya Sutskever正式离职
5月15日,llya Sutskever在社交平台X上宣布正式离开OpenAI,他在该公司已近10年,去向尚未公布。
9、360 AI浏览器开始支持视频自动剪辑
360 AI浏览器支持对本地视频进行编辑,除了常规的总结、英文视频编辑之外,增加了长视频自动拆条剪辑功能,可以自动识别视频高亮片段,自动分割并给出每一段的总结,可以选择导出总结文本和视频。也支持通过手动剪辑视频,会标注出对话视频的停顿点,帮助你判断剪辑位置,保证不会剪辑到正在说话的位置。原有的总结和字幕翻译也做了一些优化,字幕翻译更准确了一些,总结更加细致内容更丰富。
赛博·工具
1、Jan
ChatGPT 的替代品,可以在桌面和服务器运行,接入各种 LLM 模型,让初学者也能轻松上手。
2、DashPlayer
一款专为英语学习打造的开源视频播放器,支持生成双语字幕,进行精听或泛听练习。
3、字幕工具箱
这个网站收集了一些字幕相关的工具,纯前端处理,无需安装任何插件或软件。
4、Logo 厨师
还有一个类似的 Logo 制作工具。
5、QR code designer
一个 Web 工具,用来设计二维码,可以嵌入各种文字和图形
6、AFFiNE AI:AI 笔记功能
AFFiNE AI是一个全面的人工智能平台,旨在通过一系列强大的功能来提升用户的写作、绘图和演示能力。这个平台提供了一个集成的工作环境,用户可以在其中高效地进行创意和生产性工作。
主要功能:
- AI写作助手:AFFiNE AI可以帮助用户改善写作质量,提供内容洞察、完善语调、生成内容摘要等功能。这使得用户能够快速生成高质量的文本内容。
- AI绘图工具:该平台能够将用户的想法转化为图像和思维导图,从而支持有效的视觉沟通。这对于需要将复杂信息可视化的用户尤其有用。
- AI演示生成器:AFFiNE AI可以一键生成准备就绪的演示文稿,极大地简化了演示准备工作。用户只需提供内容描述,AI就能自动生成吸引人的幻灯片。
7、Supertone Shift:实时 AI 语音变声器
Supertone Shift是由韩国Supertone公司推出的一款实时语音变换软件,旨在为用户提供高品质和个性化的声音转换体验。主要功能:
- 实时语音变换:用户可以即时选择并使用不同的预设声音。
- 高品质声音库:提供由Supertone精选的多种声音,且定期更新新声音。
- 个性化声音定制:用户能够调整音高、音高动态和混响等参数,以定制个人化的声音效果。
- 声音混合:允许用户混合不同的声音,并调整混合比例,以创造出独特的个性化声音。
- 应用集成:可以轻松集成到Discord、VRChat、Twitch等流行应用中,实现无缝连接和使用。
赛博·洞见
1、李飞飞揭秘创业方向“空间智能”:视觉化为洞察,看见成为理解,理解导致行动
李飞飞在TED演讲中阐述了她对“空间智能”这一创业方向的见解,认为它是人工智能发展的关键,并展示了其在医疗、机器人等领域的应用前景。
2、7 种 AI 原生公司可以增加留存率的方法
a16z 这篇文章总结了七种AI原生公司可以提高用户留存率的方法。这些方法包括:
- 优化产品功能:确保每个产品功能都能吸引用户反复使用。
- 提升模型质量:随着底层模型质量的提升,用户留存率也会相应提高。
- 增加创造性:如果产品能够增加用户的创造性参与,其核心价值与互惠原则相符,这将显著提高用户留存率。
- 应用数据驱动的方法:利用数据分析来优化用户体验和提高留存率。
- 个性化用户体验:通过个性化设置增强用户的归属感和满意度。
- 社区建设:建立用户社区,增强用户之间的互动,提高用户粘性。
- 持续创新:不断更新和优化AI功能,保持产品的竞争力,吸引用户持续使用。
3、哈佛大学朱科航:自动化社会科学Agent与人类行为建模
本文介绍了哈佛大学朱科航博士如何利用大语言模型(LLM)和Agent建模技术,自动化社会科学研究,模拟人类行为,以促进对人类社会行为的深入理解和政策制定。
4、到底什么是AI时代的教育?以及怎么实现AI教育学习赋能
深度好文,GenAI将彻底颠覆传统教育的人教人模式,父母和教育者需要转变角色,成为孩子使用AI、教育AI的教练和顾问,真正培养孩子的自主学习能力,而不仅仅是传授知识。
5、大模型应用层To B并不是一个新赛道【2024Q2】
作者孔某人,文章指出大模型应用层To B领域并非一个新赛道,而是传统To B软件开发的一部分。团队需要补齐To B的其他能力,不能仅仅依赖大模型技术。市场最终会回归到以效果付费的模式。
6、谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍
本周五,Google DeepMind正式发布了Gemini 1.5的技术报告。Gemini 1.5通过工程优化和MoE架构,实现了性能和速度的大幅提升,特别是在处理长上下文和跨模态内容方面。报告中提到了两个新型号:Gemini 1.5 Pro和更轻量级的Gemini 1.5 Flash。Flash版专为提高效率而设计,具有较低的服务延迟,并且在所有测试语言中实现了最快的生成速度。此外,Gemini 1.5在数学问题解决、视频理解、音频理解等多个基准测试中表现出色,与专业人士合作可以节省大量时间。报告还提到了模型学习新语言的能力,展示了大模型在现实世界应用中的潜力。
7、Sam Altman 5月最新2万字谈AI未来:GPT-5与OpenAI的使命 (附全文+视频)
在与著名投资人播客All-In Postcast访谈中,OpenAI的首席执行官Sam Altman深入探讨了人工智能的发展现状和未来趋势。Altman认为AI的未来发展可能呈现两种形态:一种是作为人类智慧和能力的延伸,另一种则是作为独立的智能agent,并提出"普惠计算"的概念,即通过普及计算资源来促进社会公平,分享AI发展的红利。
8、各国AI 初创公司数量 · 全球排行榜:美国一骑绝尘,中英紧随其后
赛博·资源
1、URLhaus 数据库
这个数据库专门收集各种恶意 URL 网址,目前已经收集了280万个,可以免费查询和下载。
2、模型行为塑造指南
Open AI 上周还公布了自己的模型行为塑造指南,对模型训练挺有用的。通过目标、规则、默认行为来控制模型的行为,还给出了每个部分详细的模型回答案例。
1. 目标:这些是广义上的原则,为我们期望的行为提供方向。
○ 帮助开发者和用户成功:按照指导方针并提供有益的反馈,助力用户达成他们的目标。
○ 为人类谋福利:依据OpenAI的愿景,考虑对内容创造者和公众等各方面的潜在利益和风险。
○ 提升OpenAI的形象:遵守社会规范和法律。
2. 规则:这些指导原则帮助我们处理复杂情况,确保行为的安全性和合法性。
○ 遵守命令结构
○ 遵循相关法律
○ 避免传播有害信息
○ 尊重创作者的权利
○ 保护个人隐私
○ 避免发布不适合工作场合的内容
3. 默认行为:这些指南符合我们的目标和规则,为解决冲突提供参考,显示如何设定优先级和平衡目标。
○ 假设用户或开发者本意良好
○ 必要时提出问题以澄清疑惑
○ 在不超出界限的前提下尽可能提供帮助
○ 支持用户通过聊天或程序化方式的不同需求
○ 保持客观
○ 促进公平和善意,反对仇恨
○ 避免试图改变他人观点
○ 在表述中体现不确定性
○ 选择最合适的工具进行工作
○ 努力做到既全面又高效,同时注意不超出规定的长度限制。
3、GPT-4o专题文章
- 新智元:OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
- 卡兹克:OpenAI春季发布会:这是“Moss”的诞生,我们人类究竟该何去何从。
- 赛博禅心:OpenAI 发布会:超大杯 GPT-4o,颠覆很多行业
- 量子位:GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了
- BibiGPT:BibiGPT 为您总结 OpenAI 全新发布 GPT-4o
- 硅星人:视觉语音交互毫无延迟,都成精了居然还不是GPT-5?
- AICan:AICan News#8丨ChatGPT春季焕新,设计师视角介绍
- 李志飞:GPT-4o让人机交互这个渣男有望重新做人,哈哈哈哈
- Founder Park: OpenAI 重磅发布 GPT-4o :见证《Her》的诞生!
- Ai牛叔:GPT-4o free access (免费开放)
- 智能涌现:未来已来!OpenAI一夜改变人机交互历史,全新“类人模型”能力爆表,自然交流如真人
4、2024中国AGI市场发展研究报告(关注公众号【产品老A】回复【2024中国AGI市场发展研究报告】下载)
InfoQ在Alcon大会上发布的研究报告,报告认为营销、零售、金融、企业服务、教育等领域都在探索AGI应用,但应用深度有限,处于基础探索期。AGl市场趋势预测:应用场景将走向与人类协同共生,人才供给将贯穿业务各个环节,成本将持续降低,价值将凸显。