2024-WK32 前沿技术动态

1、大公司动态

智谱AI版Sora开源!可商用,4090单卡推理,A6000可微调

1. CogVideoX 2B是首个开源商用级视频生成模型,支持6秒720*480分辨率视频生成;

2. 模型在4090显卡上可进行推理,在A6000显卡上可完成微调,推理和微调所需显存分别为18GB和40GB;

3. CogVideoX 2B基于3D变分自编码器(VAE)优化视频的空间和时间压缩,提高视频生成质量和效率。

更多:https://mp.weixin.qq.com/s/d3gbTzLVJpJotRbpGyZSIA



阿里推出AI数据科学家,全流程自动化科研小白适用

1. Data Science Assistant基于Modelscope-Agent框架,实现数据科学全流程自动化,包括数据分析、预处理、特征工程、模型训练和评估;

2. DS Assistant采用plan-and-execute框架,自动将复杂数据科学问题分解为多个子任务,并智能调度执行顺序;

3. 该系统支持无编码交互式创建,提高任务执行成功率,并计划未来优化对话交互式任务处理和批处理功能。

更多:https://mp.weixin.qq.com/s/VgGNa9ByB09sJJTucNnuIA



阿里云推出首个域名AI大模型应用

8月8日,阿里云宣布域名产品服务完成AI化系列改造,推出首个基于通义大模型的域名AI应用,并上线“.ai”等40余个全新的热门域名后缀、2000万个全球域名资源。随着域名注册量的增长,简短易记的域名变得难以获得。据了解,升级后的阿里云万网,用户只需输入品牌名称和所属行业,基于通义大模型就能批量生成创意域名,并自动完成可用性筛查,输出域名含义。



Apple Intelligence 里面各种智能应用的提示词曝光

1. Apple Intelligence 使用内置提示词来指导AI处理邮件,如限制问题和回答的字数,并以JSON格式输出;

2. 提示词包含明确的行为规范,如“不要幻觉,不要捏造事实信息”,以确保AI回复的准确性和安全性;

3. 泄露的提示词涵盖多种功能,包括邮件回复、生成回忆视频和信息总结,显示出其在多场景下的应用能力。

更多:https://mp.weixin.qq.com/s/F8PVjygFIPXmdwXPw3fqSQ



2、关于OpenAI

不敢用ChatGPT水论文了!OpenAI反作弊的工具曝光,待上线

1. OpenAI开发了一种反作弊的工具,能以99.9%的准确率检测出使用ChatGPT生成的文本;

2. 尽管技术已成熟,由于用户反对和可能导致潜在的使用减少,该工具迟迟未公开上线;

3. 用户侧担忧该工具可能影响ChatGPT的写作质量和使用自由,OpenAI在推广前进行了多次调查和内部讨论。

更多:https://mp.weixin.qq.com/s/EvSLsSQg1auDf9baQjULmw



GPT-4o新版本上线:丝滑解决9.11和9.9谁大的问题

1. GPT-4o新版本性能全面提升,ZeroEval基准测试排名第一;

2. 引入结构化输出,通过JSON模式确保输出内容与开发者定义的结构完全匹配,提高模型可靠性;

3. 输入输出效率提升,降低成本,输出扩展至16k tokens,价格更经济。

更多:https://mp.weixin.qq.com/s/1j24sXv-AH_jhdLCRWeKvA



3、端侧AI多模态

面壁小钢炮MiniCPM-V 2.6凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,提升端侧AI多模态能力。

1. MiniCPM-V 2.6模型以8B参数实现了端侧多模态理解,包括单图、多图和视频,性能达到与GPT-4V相媲美的水平;

2. 首次将实时视频理解、多图联合理解等多模态功能实现在端侧设备上,提升了AI模型对真实世界动态视觉信息的处理能力;

3. 模型优化了视觉token的编码效率,提高了运行效率和推理速度,确保了在端侧设备上的高性能运行。

更多:https://mp.weixin.qq.com/s/xt7goy0ISAUhVuLSUdg7jA



4、实时语音交互

将LLM和TTS合二为一,Lepton AI(贾扬清创办)推出实时语音交互功能。

1. Lepton AI推出的实时语音交互功能实现了几乎无延迟的响应,大幅提升用户体验;

2. 技术创新包括将LLM和TTS合二为一,实现文本和语音的并行处理,显著减少首次音频时间(TTFA);

3. Lepton AI的语音模式技术与多种开源LLM模型兼容,支持开发者自由选择和使用,提供高度定制化的应用可能。

更多:https://mp.weixin.qq.com/s/4mNd43wTiUbffSkRRAkYCA



5、技术创新

谷歌DeepMind和帝国理工共同开发了DAAG框架,实现智能体的迁移学习和高效探索。

1. 利用LLM、VLM和DM三种模型,谷歌DeepMind和帝国理工共同开发了DAAG框架,实现智能体的迁移学习和高效探索;

2. DAAG框架通过后见之明经验增强技术,使扩散模型能够重新标记智能体的过去经验,提高学习效率;

3. DAAG实现了无需人类监督的终身学习,通过自主设置和评分子目标,加速新任务的学习。

更多:https://mp.weixin.qq.com/s/P-x8EDrfd1ydCnPP8MYu6g



「空间智能」提出后,上交等提出空间大模型SpatialBot

1. SpatialBot是一个多模态大模型,结合RGB和深度信息(RGBD),专门设计来理解和操作空间数据;

2. 通过SpatialQA数据集的三个层次训练,SpatialBot能够理解深度图,对齐深度与RGB数据,并在高级层面使用深度信息解决复杂任务;

3. SpatialBot利用DepthAPI精确获取深度信息,支持在通用和具身场景中的空间理解和任务执行,展示出与GPT-4o相近的能力。

更多:https://mp.weixin.qq.com/s/X1iqkkEMsop9DGCY08AfCw



谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍

1. 谷歌Deepmind开发的JEST算法提升了大模型数据筛选效率13倍,降低算力需求10倍;

2. JEST通过批次级评分而非单个数据点评分,优化了数据选择过程;

3. 结合模型近似和多分辨率训练方法,进一步降低了算力需求,提高了处理效率。

更多:https://mp.weixin.qq.com/s/sSzTWr8xEP8M8Wslqaj4qg



6、开源

Stability.ai开源Stable Fast 3D,0.5秒就能快速生成3D资产

1. Stability.ai开源了名为Stable Fast 3D(SF3D)的3D生成模型,能在0.5秒内快速生成高质量3D模型,包括UV展开和材质参数;

2. SF3D采用改进的Transformer网络和TripoSR架构,提高三平面分辨率以减少混叠伪影,并通过Material Net和Light Net增强材质和光照预测;

3. SF3D在性能评估中显示出优于现有主流3D模型的能力,能够生成更准确的形状和更详细的纹理。

更多:https://mp.weixin.qq.com/s/bR2KI0k231ErvKS80JfKRA



智谱AI版Sora开源!可商用,4090单卡推理,A6000可微调

1. CogVideoX 2B是首个开源商用级视频生成模型,支持6秒720*480分辨率视频生成;

2. 模型在4090显卡上可进行推理,在A6000显卡上可完成微调,推理和微调所需显存分别为18GB和40GB;

3. CogVideoX 2B基于3D变分自编码器(VAE)优化视频的空间和时间压缩,提高视频生成质量和效率。

更多:https://mp.weixin.qq.com/s/d3gbTzLVJpJotRbpGyZSIA

  • 27
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值