🌍图灵诺奖得主等大佬齐聚海淀!清华版Sora震撼首发
4月27日,2024中关村论坛年会「人工智能主题日」举办。
生数科技联合清华大学,共同发布了最新的视频大模型「Vidu」。
全球首个低碳、高性能多语言LLM全面开源。
🔗 图灵诺奖得主等大佬齐聚海淀!清华版Sora震撼首发,硬核AI盛会破算力黑洞-CSDN博客
🌐通义千问发布Qwen1.5-110B 首款超1000亿参数模型
- Qwen1.5-110B是Qwen1.5系列中的新成员,也是该系列首个拥有超过1000亿参数的模型。
- 该模型在基础模型评估中表现出色,与Meta-Llama3-70B相媲美,并在聊天模型评估(包括MT-Bench和AlpacaEval 2.0)中表现出色。
- 模型支持多语言,包括英语、中文、法语、西班牙语等,上下文长度可达32K令牌。
🔗详细:https://qwenlm.github.io/blog/qwen1.5-110b/
🔗 https://blink.csdn.net/details/1689342
🤖Sanctuary AI发布其第七代机器人:更接近人类!
- 24小时之内就能学会新任务。
- 相比前代有了巨大的改进,更长的运行时间、更低的材料成本。
- 新机器人在手腕、手和肘部的动作范围得到了扩展,更为灵活和精确。
🔗 https://blink.csdn.net/details/1689335
🧠WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理
- 能够处理连续的对话,听取用户的指令,自动浏览网页,执行搜索、导航和信息检索、完成如预定酒店、购物或查找信息等任务。
- 能在实际的浏览器环境中执行各种动作,如点击、滚动、填写表单等。
- 在专业的智能代理基准测试中,在多个方面都优于 GPT-4V。
- 可以被训练来从网页收集特定信息,并将其用于不同的应用,比如自动化的数据汇总。
🔗 https://blink.csdn.net/details/1689340
🛠️LLaVA++ : 赋予Phi-3 和 Llama-3 视觉能力
- 在通过扩展原有的LLaVA模型,将 Phi-3 和Llama-3 进行整合集成,并赋予它们视觉处理能力。
- 模型能够更准确地理解和执行与视觉内容相关的复杂指令。
- 在处理需要理解图像和文本的学术任务时,展现了更高的准确率和效率。
🔗GitHub:https://github.com/mbzuai-oryx/LLaVA-pp
🎨 IntrinsicAnything:调整图片光照 保持物体材质
- 生成模型学习材料,规范优化过程,提高准确性
- 模型基于漫反射和镜面反射着色项,增加准确性
- 采用从粗到精的训练策略,实现稳定且准确的材质回收结果