20240529 每日AI必读资讯

🔍清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜

- 目标检测系统的标杆 YOLO 系列,再次获得了重磅升级。相同性能情况下,延迟减少 46%,参数减少 25%。

- YOLO 系列框架被广泛用于各种实际应用,包括自动驾驶、监控和物流。

首次提出了 YOLO 无 NMS 训练的一致双重分配。

 🔗论文地址:https://arxiv.org/pdf/2405.14458

 🔗项目地址:https://github.com/THU-MIG/yolov10

🔗 清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜-CSDN博客

🍏苹果豪赌!神秘AI项目曝光,宁死不用英伟达?

- 苹果将在WWDC展示最新的人工智能进展,专注于普通用户可用的AI工具。

- 苹果计划将AI工具整合到主要应用中,改进操作系统通知功能。

- 苹果与OpenAI合作开发聊天机器人,但不会在WWDC展示,而是作为插件显示在iOS18中。

 🔗 苹果豪赌!神秘AI项目曝光,宁死不用英伟达?自研芯片全家桶都要AI了-CSDN博客

🔧超牛ComfyUI节点AnyNode来了!要啥功能让AI帮你编写

- 功能编写: 用户可以根据要求编写Python函数,实现任何功能。

- 灵活性: 用户可以通过提示词让LLM帮助编写不同类型的节点,如文本总结、颜色通道调整、Ins滤镜效果等。

- 与ComfyUI的兼容性: AnyNode作为ComfyUI中的节点,可以与其他节点配合使用,链接到所需的输出格式节点。

🔗 https://github.com/lks-ai/anynode

图片

👐 SignLLM:世界上第一个通过文字描述生成手语视频的多语言手语模型​

- 该模型将文本或提示转化为手语手势视频。​

- 支持包括美国手语(ASL)和德国手语(GSL)在内的八种手语。​

- 引入多语言手语数据集 Prompt2Sign,基于此开发生成手语模型。​

🔗 SignLLM: Sign Languages Production Large Language Models

图片

🎧 Look Once to Hear:全新的降噪耳机​

- 注视对方即可放大或消除对方声音。​

- 移动中仍能听到目标说话者的语音,无背景噪声干扰。​

- 适用于嘈杂环境,如街道、咖啡馆或社交聚会。​

🔗 GitHub - vb000/LookOnceToHear: A novel human-interaction method for real-time speech extraction on headphones.

🔗 https://blink.csdn.net/details/1710980 

🎥 Open-Sora 1.1发布:视频生成质量和时长提升​

- 生成最长约21秒的视频。​

- 使用更高质量的视觉数据和字幕训练。​

- 优化CausalVideoVAE架构,提高性能和推理效率。​

🔗 https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.1.0.md​

🔗 https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.1.0

  • 29
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值