20240428 每日AI必读资讯

 🌍图灵诺奖得主等大佬齐聚海淀!清华版Sora震撼首发

4月27日,2024中关村论坛年会「人工智能主题日」举办。

生数科技联合清华大学,共同发布了最新的视频大模型「Vidu」。

全球首个低碳、高性能多语言LLM全面开源。

🔗 图灵诺奖得主等大佬齐聚海淀!清华版Sora震撼首发,硬核AI盛会破算力黑洞-CSDN博客

图片

🌐通义千问发布Qwen1.5-110B 首款超1000亿参数模型 

- Qwen1.5-110B是Qwen1.5系列中的新成员,也是该系列首个拥有超过1000亿参数的模型。

- 该模型在基础模型评估中表现出色,与Meta-Llama3-70B相媲美,并在聊天模型评估(包括MT-Bench和AlpacaEval 2.0)中表现出色。

- 模型支持多语言,包括英语、中文、法语、西班牙语等,上下文长度可达32K令牌。

 🔗详细:https://qwenlm.github.io/blog/qwen1.5-110b/

🔗 https://blink.csdn.net/details/1689342

🤖Sanctuary AI发布其第七代机器人:更接近人类!

- 24小时之内就能学会新任务。

- 相比前代有了巨大的改进,更长的运行时间、更低的材料成本。

- 新机器人在手腕、手和肘部的动作范围得到了扩展,更为灵活和精确。

 🔗 https://blink.csdn.net/details/1689335

🧠WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理

- 能够处理连续的对话,听取用户的指令,自动浏览网页,执行搜索、导航和信息检索、完成如预定酒店、购物或查找信息等任务。

- 能在实际的浏览器环境中执行各种动作,如点击、滚动、填写表单等。

- 在专业的智能代理基准测试中,在多个方面都优于 GPT-4V。

- 可以被训练来从网页收集特定信息,并将其用于不同的应用,比如自动化的数据汇总。

🔗 https://blink.csdn.net/details/1689340

🛠️LLaVA++ : 赋予Phi-3 和 Llama-3 视觉能力

- 在通过扩展原有的LLaVA模型,将 Phi-3 和Llama-3 进行整合集成,并赋予它们视觉处理能力。

- 模型能够更准确地理解和执行与视觉内容相关的复杂指令。

- 在处理需要理解图像和文本的学术任务时,展现了更高的准确率和效率。

🔗GitHub:https://github.com/mbzuai-oryx/LLaVA-pp

🎨 IntrinsicAnything:调整图片光照 保持物体材质

- 生成模型学习材料,规范优化过程,提高准确性

- 模型基于漫反射和镜面反射着色项,增加准确性

- 采用从粗到精的训练策略,实现稳定且准确的材质回收结果

🔗 IntrinsicAnything

图片

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值