赛博·新闻
1、MiniMax-01开源
本周三(1月15日),MiniMax发布并开源了MiniMax-01全新系列模型,其中包含两个模型,基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。据悉,在MiniMax-01系列模型中,MiniMax做了大胆创新:首次大规模实现线性注意力机制,传统Transformer架构不再是唯一的选择。模型的参数量高达4560亿,其中单次激活459亿。模型综合性能比肩海外顶尖模型,同时能够高效处理全球最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
2、腾讯推出AI检测工具
1月17日,腾讯宣布上线AI「鉴别工具」。而腾讯混元安全团队旗下的朱雀实验室,推出了朱雀大模型检测网站。在这个网站里,用户可以使用这个工具对文本和图像进行AI检测。官方表示,AI生成文本检测基于多种先进的人工智能模型,构造数百万级别的数据进行训练,能够识别出人类和AI的书写模式。该系统不仅具备优秀的英文检测能力,在处理中文数据方面表现尤为出色。而AI生成图像检测利用先进的AI模型检测图片是否由AI模型生成,或是否是真实图像。该模型经过百万张自然图片和生成图片训练,涵盖摄影、艺术、绘画等内容。可检测多类主流文生图模型生成图片,更多模型生成图片的检测持续新增中。
3、面壁智能发布MiniCPM-o2.6
1月16日,面壁智能正式发布了一款新模型MiniCPM-o2.6。仅8B的参数的它能看视频、听声音、读文字,还能说会道。并且,它的反应快得跟人类一样,几乎没有一点卡顿。用更通俗的话讲,它能像人一样用眼睛看、用耳朵听、用嘴巴说,用大脑思考。相比于市场上有些宣称支持实时流式视频理解的模型或产品,MiniCPM-o2.6能够感知用户提问之前的画面和声音,真听真看真感受,也更贴近人眼的自然视觉交互。
4、Vidu2.0正式发布
1月15日,ViduAI宣布旗下Vidu2.0正式发布,生成单秒视频最低仅需4分钱。据官方介绍,本次Vidu2.0将最快10秒出片;模型效果也更上一层楼,风格、主体更一致,首尾帧更自然;支持一次性生四条素材;成本将低至4分/秒,并且低峰时段不限量、不扣积分。同时ViduAI还上线了中国站点,针对国内用户优化,注册更快捷,并且支持中文语言以及本地支付。
5、Luma AI推出Ray2视频生成模型
1月16日,Luma AI正式推出Ray2视频生成模型。据官方介绍,Ray2通过Luma新的多模态架构训练,其算力达到了Ray1的10倍。Ray2能生成快速且连贯的运动画面、逼真写实的细节和优秀的时间逻辑表达。据了解,目前Ray2仅支持文本生成视频,规格为最大10秒的720P视频。Luma AI还透露,后续Ray2将支持图片生成视频、视频生成视频及视频编辑功能。从公布的样片来看,Ray2能够连贯地完成运动画面的生成,还能准确地按照文本逻辑生成相对应的视频内容,同时能够较好地还原真实世界的物理关系。目前,Ray2已经上架Luma AI旗下的Dream Machine创作平台。
赛博·洞见
1、大模型开发工作手册详细指南
本文是一份关于大模型开发的工作手册,由腾讯技术工程团队撰写。手册首先强调了大模型应用的重要性,并指出当前大模型应用发展相对滞后的问题。作者提出了一个新的研发框架和工具,通过工程化手段降低模型应用研发的成本,使得非专业人员也能参与到大模型应用的开发中。文章详细介绍了模型研发流程中的各个环节,包括建模、数据准备、模型调试、效果评测和部署运维,并展示了如何通过工具化和Agent系统来优化这些流程。文章还分享了实际案例和最佳实践,说明了工具在提升研发效率和降低成本方面的成效,并对未来的发展方向进行了展望。
2、晚点对话MiniMax闫俊杰:千万别套用移动互联网的逻辑来做AI
文本是晚点团队对MiniMax公司CEO闫俊杰的深入访谈,讨论了AI领域的多个重要议题。闫俊杰强调,AI领域的发展不应简单套用移动互联网的逻辑,而应重视技术迭代和模型能力的提升。他提到,用户数量的增加并不直接导致模型能力的提升,而更好的模型可以导向更好的应用。访谈中,闫俊杰分享了MiniMax的技术目标、新模型开发、公司变化和人员调整,以及他作为CEO的自我复盘。他还提到了MiniMax-01系列模型的开源,这是公司技术迭代目标的结果之一。闫俊杰认为,long-context(长上下文)是智能体的重要能力,能增强AI的“记忆”。
3、AtomCapital:中美AI最前沿——创投新趋势、中美竞争与初创企业出海战略
文章回顾了2024年AI领域的八大最具影响力事件,包括OpenAI的视频生成模型Sora、GPT-4o的多模态融合能力、Meta的Llama3.1开源模型、11x.ai的AI SDR Alice、OpenAI的o1模型、Claude的Computer Use场景、AI编程领域的突破以及DeepSeekV3的发布。文章还分析了AI早期投资趋势,指出2B应用的主导地位和资本对Agent、Infra、AIGC及安全等领域的关注。同时,文章讨论了Agent元年的到来及其面临的挑战,包括结构性和工程性挑战,并强调了AI编程的重要性。最后,文章探讨了中美AI之争的人才、学术、产业生态和战略竞争层面,并分析了中国AI企业的出海战略,包括聚焦Prosumer市场、为出海企业提供服务和布局AI硬件。
4、对话“AI教母”李飞飞:我们究竟需要什么样的AIAgent?如何正确把握这个风口(附视频)
在这次访谈中,李飞飞讨论了AI Agent的重要性和发展前景,强调AI Agent应作为工具和赋能者,而非主导者和替代者。她分享了自己使用大型语言模型进行学习和研究的经验,并强调通过自然语言进行知识分享和学习的强大能力。李飞飞还讨论了AI技术的发展现状,包括AI在医疗领域的应用和对AI治理的看法。她认为,AI的发展需要尊重人类的自主性,并建立一个积极的生态系统,包括私营和公共部门的合作。此外,李飞飞还提到了AI For All项目,旨在让更多背景的学生接触AI,推动技术的多元化发展。
5、Gamma创始人自述:从0到4000万用户,我们是怎么做增长的?
文章是Gamma联合创始人Jon Noronha的自述,讲述了Gamma如何从0增长到4000万用户。Jon分享了公司在找到产品市场契合点(PMF)、在Product Hunt上打榜成功、资金不足面临倒闭风险,到产品快速成长并获得2500万用户的完整历程。他强调了选择正确的问题解决的重要性,以及团队在最困难时期保持高效率和快乐的原因。Jon还讨论了产品开发、用户反馈、市场推广和资金筹集等方面的策略和决策。
6、玉伯,阿里前端第一人,语雀创始人,辞任字节高管创业AI创作工具,首轮融资近千万美元
文章讲述了玉伯从中科院退学到成为阿里巴巴前端领域的领军人物,再到创立YouMind的历程。YouMind旨在成为“AI时代的纸和笔”,通过技术创新重新定义查找资料和写作的方式,为创作者提供一站式创作工具。玉伯分享了他对技术和创新的洞察,以及他如何通过理解用户、追求激情和不断创新来推动个人成长和社会责任。文章还提到了YouMind的首轮融资近千万美元,以及玉伯对未来内容社区的规划。
7、AI Agents 24年回顾-五大发展趋势
文章总结了2024年AI Agents领域的五大发展趋势。首先,企业正在采用AI Agents以节省用户时间并提高效率。其次,专为Agent设计的基础模型正在兴起,这些模型集成了规划、工具使用和协调能力。第三,Interface Agents通过驱动界面和接口来完成任务,正在成为主流。第四,Agent系统正在向更复杂、更自主的场景过渡,Agent框架和指南应运而生。最后,端到端的Agents Benchmarks提供了评估Agent性能的工具。文章还对2025年的发展趋势进行了展望,包括模型能力的提升、Agent架构的可靠性增强,以及Agent市场的兴起。
8、干货分享:一场OpenAI、NVIDIA、Anthropic、Google研究员的新年硬核聊天
文章记录了硅谷AI领域顶尖研究员们对Scaling Laws、强化学习(RL)、多模态模型、合成数据、sim2real技术路线、具身智能形态等议题的深入讨论。讨论涉及Scaling Laws在不同模型训练阶段的效果差异、RL在不同任务下的应用及其挑战、多模态模型的发展难点、合成数据的使用及其在自动驾驶和机器人训练中的价值、具身智能与大模型在容错要求上的差异,以及具身智能的数据收集和应用问题。研究员们还分享了对2025年AI技术发展的期待。
9、资本、AGI与人类雄心
文章分析了AGI对社会的多方面影响,包括资本的重要性增加、人类劳动的贬值、社会权力结构的变化、普遍基本收入政策的实施难度、以及个人通过劳动实现超常成果的困难。作者认为,AGI可能导致社会变得静态,不平等权力结构被放大和固化。文章还讨论了AGI对创业、硬科学、知识分子、政治、军事和宗教领域的影响,并指出在AGI时代,个人不依靠资金获取和行使权力的能力将大幅下降,而资本的持有者将拥有永久的优势。作者呼吁保护世界的活力和动态性,认为AI可能是人类雄心的最后也是最大的机会。
赛博·工具
1、壁纸样机生成器
2、GenerateYourChineseName
AI给外国人起中文名字。
赛博·资源
1、BestBlogs.dev
精选中文科技文章的阅读平台。
自洽的程序员
一本中文电子书,作者分享如何调整心态,解决职场常见问题,提供在线阅读。