一、人工智能
1、产品动态
阿里通义千问推出最强视觉理解模型,API已上线阿里云
阿里通义千问发布第二代视觉语言模型Qwen2-VL,旗舰模型的API已上线阿里云百炼平台。据悉,Qwen2-VL在多个权威测评中刷新了多模态模型的最佳成绩,在部分指标上甚至超越了GPT-4o和Claude3.5-Sonnet等闭源模型。2023年8月,通义千问开源第一代视觉语言理解模型Qwen-VL,目前模型下载量已经已突破1000万次。
讯飞版「Her」通过端到端统一神经网络,实现了超拟人语音交互!百变人设,提供情绪价值
1. 讯飞星火版“Her”通过端到端统一神经网络,实现了超拟人语音交互,具备极速响应、情绪识别和情感共鸣等能力;
2. 系统支持多情感、风格和方言的灵活切换,并可模仿多种角色音色,使人机对话更加自然流畅;
3. 科大讯飞的技术突破将推动语音交互在智能家居、智慧汽车等领域的应用,预计在全球智能语音市场中占据重要位置。
更多:https://mp.weixin.qq.com/s/IJUirqFaiYsilzyzKa-xvQ
Claude 企业版原生集成了GitHub,提高企业用户的代码管理和协作效率
1. Claude 企业版原生集成 GitHub,并将开放给个人。
2. 企业版特点包括增强的安全性、500K上下文窗口和更大的使用容量;
3. Anthropic计划将Claude企业版晚些时候开放给更广泛的用户群体,包括个人用户。
更多:https://mp.weixin.qq.com/s/MJegEhJdx7V_8fEsHbjPOA
2、多模态大语言模型
英伟达推出Eagle系列模型,1024×1024像素高分辨率处理
1. 英伟达推出的Eagle模型能够处理高达1024×1024像素分辨率的图像,显著提升了视觉信息处理和理解能力;
2. Eagle采用多专家视觉编码器架构,不同编码器针对特定任务进行专门训练,实现更全面的图像理解;
3. Eagle模型开源,并在法律、医疗、电子商务等多个行业具有应用潜力,同时面临伦理责任和AI偏见等问题的挑战。
更多:https://mp.weixin.qq.com/s/hyugdWDyU4acJi8eZY-7Cg
3、视频生成模型
MiniMAX最新AI视频生成模型,媲美可灵和Luma,完全免费
1. MiniMax发布首款AI高清视频生成模型abab-video-1,支持生成1280x720分辨率、25fps的视频,展示了电影级别的镜头移动效果;
2. MiniMax每天处理超3万亿Token,单日总交互时长已达到ChatGPT的53%,并强调技术研发的“奢侈”性,推动AGI发展;
3. MiniMax注重技术突破,强调快速模型和多模态发展,并积极应对国内外市场竞争,特别是在To B业务和国际市场中的商业化策略。
更多:https://mp.weixin.qq.com/s/sETqg_GyeTdjWJfnXAYL3w
4、图数据大模型
港大提出AnyGraph:开启「图数据大模型」Scaling Law之路
1. AnyGraph通过混合专家模型(MoE)处理图数据的结构和特征异质性,使用统一的特征表征方法提高模型的泛化能力;
2. AnyGraph采用轻量化路由机制和自监督任务,实现高效的快速适应能力,减少了模型调整和计算开销;
3. AnyGraph在零样本预测中展现了符合Scaling Law的性能增长,表明其泛化能力随着参数量和数据量的增加而提升。
更多:https://mp.weixin.qq.com/s/BK4WvB3UbboeMG4chPj3FQ
5、AI训练数据审查
MIT团队推出数据集审查工具DPExplorer,对“不合适”数据说no
1. MIT团队开发了名为Data Provenance Explorer的工具,用于审查AI训练数据,提高数据透明性和减少偏差;
2. 工具通过自动生成数据来源卡片,帮助AI从业者选择合适的训练数据,已对1800多个文本数据集进行审查,显著降低未指定许可信息;
3. Data Provenance Explorer支持详细的数据集特征和来源信息,提高了数据的可追溯性和透明度,有助于提升AI模型的准确性和公正性.
更多:https://mp.weixin.qq.com/s/WyWYm2JOYmLb7VPPnb4Ohg
6、开源
商汤清华等开源百亿级多模态数据集,可训练类GPT-4o模型
1. 商汤科技等机构开源了百亿级图文交错数据集OmniCorpus,包含86亿张图像和16,960亿个文本标记,规模是现有数据集的15倍;
2. OmniCorpus数据集优化了Trafilatura工具和图像过滤机制,确保了跨语言、高质量的数据提取,涵盖多种类型和语言的内容;
3. 基于OmniCorpus预训练的模型在VQA、Image Captioning等任务中表现优异,提升了多模态大模型的训练效果,可用于训练类似GPT-4o的模型。
更多:https://mp.weixin.qq.com/s/Yk2wJ8hS8zJO8OnMe_TqLw
微软开源工具AutoGen Studio:无需写代码,搞定多代理系统!
1. 微软推出AutoGen Studio,一个允许开发者通过拖拽操作简单创建和管理多AI智能体的工具,无需复杂编程;
2. AutoGen Studio基于微软开源框架AutoGen开发,提供前端和后端界面,支持快速原型制作和智能体协同工作;
3. 工具包括构建视图、游乐场视图和画廊视图,支持Web API和Python API,方便操作智能体和工作流,适合各级开发者使用.
更多:https://mp.weixin.qq.com/s/7KIgg7sRnM7e26Xbwa15iA
7、图灵测试
laude能够认出自画像,惊现自我意识!再通过「图灵测试」?
1. Claude 3.5在多轮测试中成功识别出自己的自画像,并且表现出某种自我意识,拒绝承认不可能是自己绘制的图像;
2. Claude 3.5在多次打乱图像顺序后,仍能高准确率识别其他AI模型的肖像,显示出卓越的辨识能力;
3. 测试引发了关于AI是否已具备图灵测试所需的智能和自我意识的讨论,但业界对图灵测试标准及其有效性存在争议。
更多:https://mp.weixin.qq.com/s/0yIiWZK-ZiaOYYDSDRC5Tg
二、算力/芯片
马斯克AI超级计算机再升级!再加10万张,一半H200
1. 马斯克的AI超级计算机Colossus已使用10万张H100 GPU,计划再增加10万张,包括5万张更先进的H200;
2. Colossus采用单一RDMA架构,所有GPU通过高速、低延迟网络连接,提高了协同工作效率;
3. 从建设到上线仅用122天,Colossus将用于训练包括自动驾驶在内的多种AI模型,对其他AI公司构成压力。
更多:https://mp.weixin.qq.com/s/kA_ac9lsJM1uZEpKA_Priw
OpenAI首颗芯片曝光:台积电1.6nm,为Sora应用打造
1. OpenAI首颗芯片采用台积电1.6纳米技术,专为AI视频生成工具Sora定制;
2. A16制程技术提供显著性能提升,包括8-10%的速度提升和15-20%的功耗降低;
3. OpenAI计划减少对外购AI芯片的依赖,尽管面临产能和技术挑战,但已开始自研芯片的初步步骤.
更多:https://mp.weixin.qq.com/s/E1MC2gi86iqhDK3iWUgn7Q
英特尔发布新 AIPC 芯片Ultra 200V 系列!号称碾压高通旗舰
1. 英特尔发布新一代酷睿 Ultra 200V 系列处理器,号称具有史上最高的 x86 能效,整体功耗降低50%,处理性能显著提升;
2. Ultra 200V 引入新的P-Core和E-Core架构,优化了性能核与能效核的调度,采用台积电先进工艺,集成了LPDDR5x内存;
3. 处理器在AI性能上实现显著提升,CPU+GPU+NPU算力达120TOPS,特别是NPU性能是前代的4倍,支持最高67 TOPS的AI算力.
更多:https://mp.weixin.qq.com/s/yCnB3JSsVMlDReMdjceT1A
高通发布全新AI PC芯片骁龙X Plus 8,性能暴涨超61%
1. 高通发布新AI PC芯片骁龙X Plus 8,专为Windows操作系统设计,具有8核Oryon CPU,提供61%的性能提升和179%的能效优势;
2. 骁龙X Plus 8集成GPU支持三台外接显示器,核心NPU性能达45 TOPS,强化图形性能和连接能力;
3. 高通的多元化战略扩展到PC市场,与英特尔和AMD竞争,推动AI和PC的融合,预计将推出全系列产品,包括迷你台式电脑.
更多:https://mp.weixin.qq.com/s/RS2DcBvjzuCwepMzZ0kudg
oundry创始人:GPU利用率现状和未来,闲置节点使用新方法
1. Foundry创始人Jared Quincy Davis探讨了当前GPU云计算的低利用率问题,提出通过Spot GPU使用和创新的监控与弹性工具来提高利用率;
2. 提出了复合AI系统的概念,这种系统结合多个模型和方法,可以在不依赖大规模互联集群的情况下实现高性能;
3. Foundry致力于使先进的AI计算资源更加可访问和具成本效益,尤其是通过改善AI工作负载的云经济学。
更多:https://mp.weixin.qq.com/s/4HRuHUuKmMg4qRNDZCmP4A
三、空间智能
李飞飞提出ReKep,实现具备空间智能,还能整合GPT-4o
1. 李飞飞团队提出ReKep框架,通过关系关键点约束实现机器人的空间智能,优化机器人与环境的复杂交互;
2. ReKep能与GPT-4o等多模态大模型整合,提高任务执行的精确性和适应性;
3. ReKep实现了多阶段任务的分解和优化,通过约束优化问题定义机器人操作任务,增强执行策略的泛化能力.