一、月之暗面发布Kimi视觉思考模型 k1
超过全球多个标杆模型
12月16日,月之暗面正式发布AI人工智能助手Kimi的视觉思考模型 k1。基于强化学习技术,支持端到端图像理解和思维链技术,训练分预训练和强化学习后训练两个阶段,能力扩展到数学之外的物理、化学等基础科学领域,k1模型在基础科学学科的基准测试中表现优异,超越包括OpenAI o1、GPT-4o以及Claude 3.5 Sonnet在内的多款知名模型,在教育领域的拍照搜题等方面表现出色,还可用于日常生活中识别动植物、计算卡路里等,也能进行古代文献分析等。
用户可以在最新版“Kimi智能助手”的Android、iPhone手机App以及网页版kimi.com上体验到这一创新功能。用户只需在App或网页版中找到“Kimi视觉思考版”,即可通过拍照或上传图片的方式,享受模型带来的智能化解题体验。
使用地址:https://kimi.moonshot.cn/
二、无问芯穹正式开源其首个端侧全模态理解开源模型Megrez-3B-Omni
具备图片、音频、文本三种模态数据的处理能力
12月16日,无问芯穹宣布正式开源其首个端侧全模态理解开源模型Megrez-3B-Omni,并同步开源纯语言版本模型Megrez-3B-Instruct。 其中Megrez-3B-Omni是一个为端而生的全模态理解模型,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最大领先同精度模型300%。作为一个全模态模型,具备图片、音频、文本三种模态数据处理能力,并在三个模态的多种测评基准中取得了最优性能。
Github: https://github.com/infinigence/Infini-Megrez
HuggingFace:https://huggingface.co/Infinige
三、谷歌发布最新视频生成模型Veo 2
谷歌版sora
12月17日,谷歌deepmind正式发布了视频生成模型 Veo 2,新模型可以更好地理解现实世界物理、人类运动及表达的细微差别,进一步提升整体细节和逼真度。可以生成分辨率最高 4K(4096 x 2160 像素),时长为 2 分钟的视频片段,相比较 OpenAI 的 Sora 模型,分辨率是后者的 4 倍,时长是后者的 6 倍。
Veo2加入GoogleLabs视频生成工具,计划明年扩展至YouTubeShorts。不过 Veo 2 现在还未正式开放,需要填表排队,等待正式上线。
排队链接:https://labs.google/fx/tools/video-fx
四、DeepSeek开源DeepSeek-VL2模型
DeepSeek-VL2是一系列大型Mixture-of-Experts(MoE)视觉语言模型
DeepSeek开源DeepSeek-VL2模型,采用MoE架构,数据量是前代一倍,新增多项能力。支持动态分辨率,仅使用一个 SigLIP-SO400M 作为图像编码器,通过将图像切分为多张子图和一张全局缩略图来实现动态分辨率图像支持。最高1152x1152,和 1:9 或 9:1 的极端长宽比,适配更多应用场景。DeepSeek-VL2 模型还得益于更多科研文档数据的学习,可以轻松理解各种科研图表,并通过 Plot2Code,根据图像生成 Python 代码。
模型下载:https://huggingface.co/deepseek-ai
GitHub主页:https://github.com/ deepseek-ai/DeepSeek-VL2
五、字节跳动发布豆包视觉理解模型
一元钱就可处理284张720P的图片
12月18日举办的火山引擎 Force 大会上,字节跳动正式发布发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。
预计2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线。
访问扣子平台,创建智能体,选择豆包视觉理解模型
然后填写申请体验链接的相关信息并提交申请。
访问https://www.coze.cn/open-platform/realtime/playground
六、谷歌发布Gemini2.0 Flash Thinking
Gemini 2.0 Flash Thinking的思考速度是o1-mini的两倍
谷歌宣布推出 Gemini2.0 Flash Thinking模型。比基础版本的 Gemini2.0 Flash模型具备更强的推理能力。新模型支持32,000个输入标记(大约50到60页文本),输出响应可以达到8,000个标记。谷歌在其 AI 工作室的侧边面板中表示,这一模型特别适用于 “多模态理解、推理” 以及 “编码”。
谷歌首席执行官桑达尔・皮查伊在社交媒体 X 上表示:“这是我们迄今为止最具深度的模型。”
可在 https://aistudio.google.com/ 中使用,
在模型下拉菜单中选择 Gemini 2.0 Flash Thinking experimental 模型来体验
七、快手可灵AI视频生成推出1.6模型
可灵1.6能够生成1080p分辨率的电影级视频
12月19日,快手可灵AI宣布基座模型再升级,推出可灵1.6模型,在文本响应度、画面美感及运动合理性上均有明显提升,画面更稳定更生动,对运动、时序类动作、运镜等文字描述响应更好。且动态质量进一步增强。可灵AI发布半年来已拥有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。
使用链接:https://klingai.kuaishou.com/
八、Meta和斯坦福大学的团队联手开源Apollo模型
用于解决视频理解领域评估效率低下的问题
Meta和斯坦福大学的团队联手,从评估基准、模型设计到开源模型, 做出了全方位的探索,创建ApolloBench用于解决视频理解领域评估效率低下的问题, 提出了模型设计的拓展一致性,发现了驱动LMM性能的关键因素,开源了Apollo模型。 Apollo-3B超越7B模型,7B变体最佳,新基准高效评估,设计决策可跨规模迁移,Apollo模型性能优越。
模型链接: https://huggingface.co/Apollo-LMMs
九、美国 AI 视频生成初创公司Pika推出视频生成模型 Pika 2.0
提供了更好的定制化和对输出的控制
美国 AI 视频生成初创公司 Pika 推出新版视频生成模型 Pika 2.0,强调可定制性,新增“场景配料”功能,Pika 2.0引入了场景元素功能,允许用户上传和自定义角色、物体和场景等元素,通过高级图像识别技术无缝集成到场景中,给予创作者更细粒度的控制权。
Pika 由两位华人女生 Demi Guo 和 Chenlin Meng 共同创立。今年 6 月,Pika 宣布完成了总额 8000 万美元的第五轮(B 轮)融资,总估值超过 4.7 亿美元,较上轮翻了一倍。用户超1100万。其亲民路线和灵活订阅制吸引多样化用户,与竞争对手形成对比。
Pika 2.0模型的官方地址链接:pika.art
十、如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】