文章推荐
OpenAI“草莓项目”最快今年秋季发布!苹果将于9月10号推出首款AI iPhone|AI日报
吴恩达辞任Landing AI CEO,专注AI投资?数学家斯蒂芬预言哲学家引领AI未来|AI日报
今日热点
中国科学院地球化学研究所与阿里云联合发布国际首个月球专业大模型
2024数博会上,中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”(简称“月球专业大模型”)。
据统计,目前月球上直径一公里以上的月球撞击坑数量已超100万个,直径一公里以下的撞击坑数量至今无法确定。如果完全依赖人工,完成所有月球撞击坑的识别是“几乎无法实现的”。
而月球专业大模型的应用则极大提高了科研效率:科研工作者只需输入月球撞击坑图像和相关问题,月球专业大模型即可调用通义视觉、多模态模型,从17种多模态数据中(包括光谱、高程、重力等数据)判定该图像对应的模态类型。
同时,通过检索知识库、调用通义语言模型,月球专业大模型可回答该撞击坑的形态、大小、年代等相关问题,并给出推理过程。
中国科学院地化所研究员刘建忠表示:“通过对海量数据的准确把握,大模型不仅可以对撞击坑进行分类,还可以解决一些目前仍未解决的科学问题。”
https://mp.weixin.qq.com/s/2qdo9Wf7sdV2jpzCubcrAQ
阿里重磅推出最新一代的视觉语言模型:Qwen2-VL
接近一年时间的持续努力,阿里重磅推出最新一代的视觉语言模型:Qwen2-VL。
Qwen2-VL基于Qwen2打造,相比Qwen-VL,它具有以下特点:
读懂不同分辨率和不同长宽比的图片:Qwen2-VL在 MathVista、DocVQA、RealWorldQA、MTVQA等视觉理解基准测试中取得了全球领先的表现。
理解20分钟以上的长视频:Qwen2-VL可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
多语言支持:为了服务全球用户,除英语和中文外,Qwen2-VL现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
https://qwenlm.github.io/zh/blog/qwen2-vl/
智谱发布新一代基座模型
在KDD 2024大会上,智谱发布了新一代基座模型:语言模型GLM-4-Plus、文生图模型CogView-3-Plus、图像/视频理解模型GLM-4V-Plus、视频生成模型 CogVideoX等,这些模型在相应领域均达到了国际第一梯队的水平。
主要更新内容如下:
语言基座模型GLM-4-Plus:在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。
文生图基座模型CogView-3-Plus:具备与当前最优的MJ-V6和 FLUX等模型接近的性能。
图像/视频理解基座模型GLM-4V-Plus:具备卓越的图像理解能力,并具备基于时间感知的视频理解能力。该模型将上线开放平台(http://bigmodel.cn),并成为国内首个通用视频理解模型API。
视频生成基座模型CogVideoX:在发布并开源2B版本后,5B版本也正式开源,其性能进一步增强,是当前开源视频生成模型中的最佳选择。
GLM-4-Flash API:推理服务完全免费,并提供微调服务。
https://mp.weixin.qq.com/s/f0Wl2qJEqMOxZP3vxdQdJg
谷歌推出世界首个AI游戏引擎GameNGen:0代码也可生成实时游戏
近日,谷歌推出世界首个AI游戏引擎GameNGen,这意味着AI能在没有游戏引擎情况下,可以为玩家生成实时游戏。
GameNGen的一些具体功能特色如下:
实时游戏画面生成:能在单个TPU上以每秒20帧的速度生成高质量的、实时的游戏画面。
无需编程:区别于传统游戏开发,GameNGen允许"0代码"生成游戏,简化了开发流程。
高逼真度:生成的游戏画面质量极高,多数玩家无法区分AI生成与真实游戏画面。
交互式体验:能够根据玩家的行为动态发展游戏环境、叙事和机制,提供个性化的游戏体验。