2024-WK32 前沿技术动态

朱四龙

于 2024-08-13 08:57:06 发布

阅读量899

点赞数 27

文章标签：开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maoer95209520/article/details/141153974

版权

1、大公司动态

智谱AI版Sora开源！可商用，4090单卡推理，A6000可微调

1. CogVideoX 2B是首个开源商用级视频生成模型，支持6秒720*480分辨率视频生成;

2. 模型在4090显卡上可进行推理，在A6000显卡上可完成微调，推理和微调所需显存分别为18GB和40GB;

3. CogVideoX 2B基于3D变分自编码器（VAE）优化视频的空间和时间压缩，提高视频生成质量和效率。

更多：https://mp.weixin.qq.com/s/d3gbTzLVJpJotRbpGyZSIA

阿里推出AI数据科学家，全流程自动化科研小白适用

1. Data Science Assistant基于Modelscope-Agent框架，实现数据科学全流程自动化，包括数据分析、预处理、特征工程、模型训练和评估；

2. DS Assistant采用plan-and-execute框架，自动将复杂数据科学问题分解为多个子任务，并智能调度执行顺序；

3. 该系统支持无编码交互式创建，提高任务执行成功率，并计划未来优化对话交互式任务处理和批处理功能。

更多：https://mp.weixin.qq.com/s/VgGNa9ByB09sJJTucNnuIA

阿里云推出首个域名AI大模型应用

8月8日，阿里云宣布域名产品服务完成AI化系列改造，推出首个基于通义大模型的域名AI应用，并上线“.ai”等40余个全新的热门域名后缀、2000万个全球域名资源。随着域名注册量的增长，简短易记的域名变得难以获得。据了解，升级后的阿里云万网，用户只需输入品牌名称和所属行业，基于通义大模型就能批量生成创意域名，并自动完成可用性筛查，输出域名含义。

Apple Intelligence 里面各种智能应用的提示词曝光

1. Apple Intelligence 使用内置提示词来指导AI处理邮件，如限制问题和回答的字数，并以JSON格式输出；

2. 提示词包含明确的行为规范，如“不要幻觉，不要捏造事实信息”，以确保AI回复的准确性和安全性；

3. 泄露的提示词涵盖多种功能，包括邮件回复、生成回忆视频和信息总结，显示出其在多场景下的应用能力。

更多：https://mp.weixin.qq.com/s/F8PVjygFIPXmdwXPw3fqSQ

2、关于OpenAI

不敢用ChatGPT水论文了！OpenAI反作弊的工具曝光，待上线

1. OpenAI开发了一种反作弊的工具，能以99.9%的准确率检测出使用ChatGPT生成的文本;

2. 尽管技术已成熟，由于用户反对和可能导致潜在的使用减少，该工具迟迟未公开上线;

3. 用户侧担忧该工具可能影响ChatGPT的写作质量和使用自由，OpenAI在推广前进行了多次调查和内部讨论。

更多：https://mp.weixin.qq.com/s/EvSLsSQg1auDf9baQjULmw

GPT-4o新版本上线：丝滑解决9.11和9.9谁大的问题

1. GPT-4o新版本性能全面提升，ZeroEval基准测试排名第一；

2. 引入结构化输出，通过JSON模式确保输出内容与开发者定义的结构完全匹配，提高模型可靠性；

3. 输入输出效率提升，降低成本，输出扩展至16k tokens，价格更经济。

更多：https://mp.weixin.qq.com/s/1j24sXv-AH_jhdLCRWeKvA

3、端侧AI多模态

面壁小钢炮MiniCPM-V 2.6凭借8B参数，已经取得单图、多图、视频理解三项SOTA ，提升端侧AI多模态能力。

1. MiniCPM-V 2.6模型以8B参数实现了端侧多模态理解，包括单图、多图和视频，性能达到与GPT-4V相媲美的水平；

2. 首次将实时视频理解、多图联合理解等多模态功能实现在端侧设备上，提升了AI模型对真实世界动态视觉信息的处理能力；

3. 模型优化了视觉token的编码效率，提高了运行效率和推理速度，确保了在端侧设备上的高性能运行。

更多：https://mp.weixin.qq.com/s/xt7goy0ISAUhVuLSUdg7jA

4、实时语音交互

将LLM和TTS合二为一，Lepton AI（贾扬清创办）推出实时语音交互功能。

1. Lepton AI推出的实时语音交互功能实现了几乎无延迟的响应，大幅提升用户体验；

2. 技术创新包括将LLM和TTS合二为一，实现文本和语音的并行处理，显著减少首次音频时间（TTFA）；

3. Lepton AI的语音模式技术与多种开源LLM模型兼容，支持开发者自由选择和使用，提供高度定制化的应用可能。

更多：https://mp.weixin.qq.com/s/4mNd43wTiUbffSkRRAkYCA

5、技术创新

谷歌DeepMind和帝国理工共同开发了DAAG框架，实现智能体的迁移学习和高效探索。

1. 利用LLM、VLM和DM三种模型，谷歌DeepMind和帝国理工共同开发了DAAG框架，实现智能体的迁移学习和高效探索；

2. DAAG框架通过后见之明经验增强技术，使扩散模型能够重新标记智能体的过去经验，提高学习效率；

3. DAAG实现了无需人类监督的终身学习，通过自主设置和评分子目标，加速新任务的学习。

更多：https://mp.weixin.qq.com/s/P-x8EDrfd1ydCnPP8MYu6g

「空间智能」提出后，上交等提出空间大模型SpatialBot

1. SpatialBot是一个多模态大模型，结合RGB和深度信息（RGBD），专门设计来理解和操作空间数据；

2. 通过SpatialQA数据集的三个层次训练，SpatialBot能够理解深度图，对齐深度与RGB数据，并在高级层面使用深度信息解决复杂任务；

3. SpatialBot利用DepthAPI精确获取深度信息，支持在通用和具身场景中的空间理解和任务执行，展示出与GPT-4o相近的能力。

更多：https://mp.weixin.qq.com/s/X1iqkkEMsop9DGCY08AfCw

谷歌发布大模型数据筛选方法：效率提升13倍，算力降低10倍

1. 谷歌Deepmind开发的JEST算法提升了大模型数据筛选效率13倍，降低算力需求10倍；

2. JEST通过批次级评分而非单个数据点评分，优化了数据选择过程；

3. 结合模型近似和多分辨率训练方法，进一步降低了算力需求，提高了处理效率。

更多：https://mp.weixin.qq.com/s/sSzTWr8xEP8M8Wslqaj4qg

6、开源

Stability.ai开源Stable Fast 3D，0.5秒就能快速生成3D资产

1. Stability.ai开源了名为Stable Fast 3D（SF3D）的3D生成模型，能在0.5秒内快速生成高质量3D模型，包括UV展开和材质参数;

2. SF3D采用改进的Transformer网络和TripoSR架构，提高三平面分辨率以减少混叠伪影，并通过Material Net和Light Net增强材质和光照预测;

3. SF3D在性能评估中显示出优于现有主流3D模型的能力，能够生成更准确的形状和更详细的纹理。

更多：https://mp.weixin.qq.com/s/bR2KI0k231ErvKS80JfKRA

智谱AI版Sora开源！可商用，4090单卡推理，A6000可微调

1. CogVideoX 2B是首个开源商用级视频生成模型，支持6秒720*480分辨率视频生成;

2. 模型在4090显卡上可进行推理，在A6000显卡上可完成微调，推理和微调所需显存分别为18GB和40GB;

3. CogVideoX 2B基于3D变分自编码器（VAE）优化视频的空间和时间压缩，提高视频生成质量和效率。

更多：https://mp.weixin.qq.com/s/d3gbTzLVJpJotRbpGyZSIA

关注

27
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
2024-WK32 前沿技术动态

8月8日，阿里云宣布域名产品服务完成AI化系列改造，推出首个基于通义大模型的域名AI应用，并上线“.ai”等40余个全新的热门域名后缀、2000万个全球域名资源。随着域名注册量的增长，简短易记的域名变得难以获得。据了解，升级后的阿里云万网，用户只需输入品牌名称和所属行业，基于通义大模型就能批量生成创意域名，并自动完成可用性筛查，输出域名含义。3. SpatialBot利用DepthAPI精确获取深度信息，支持在通用和具身场景中的空间理解和任务执行，展示出与GPT-4o相近的能力。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。