20240809 每日AI必读资讯

程序员的店小二

于 2024-08-09 18:33:23 发布

阅读量1.5k

点赞数 6

文章标签：计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46163918/article/details/141065634

版权

乒乓球AI机器人赢了人类！正反手灵活转换，擦网球高球都能接

- 谷歌发布首个达到人类竞技水平的机器人Agent，挑战乒乓球赛场。

- 机器人通过学习大量乒乓球状态数据，掌握了正手上旋球、反手瞄准等技能，展现出高速运动和实时精确性。

- 机器人在与不同技能水平选手的比赛中取得一定成绩，展现出与人类对手直接竞争的能力。

🔗 https://sites.google.com/view/competitive-robot-table-tennis/home

🔗 详情：https://blog.csdn.net/m0_46163918/article/details/141068947

通义千问推出专门的数学语言模型：Qwen2-Math

- 性能超越GPT-4o、Claude-3.5等

- Qwen2-Math 包括 1.5B、7B 和 72B 。是基于 Qwen2 LLM 构建的专门针对数学解题的模型。

- 在多个数学基准测试中数学能力显著超越了开源模型包括Llama-3.1-405B，甚至超过了闭源模型（包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro ）。

苹果发布一种新的图像和视频生成方法：Matryoshka Diffusion Models (MDM)

- 可以理解为“套娃扩散模型”。名字来源于俄罗斯套娃，因为它像套娃一样，把小的结构嵌套在大的结构里。

- MDM 能够在不同清晰度下同时处理图像，比如它可以同时生成低清晰度的草图和高清晰度的细节部分。这种方法让整个过程更快，而且生成的图像质量更高。

- 用于生成高质量图像和视频的模型面临很大的计算和优化难题。大多数方法要么在图像的像素层面上逐步生成，要么通过先训练一个压缩图像的模型，再在低分辨率的图像上进行处理。

- MDM 的创新在于它能同时处理不同分辨率的图像。就像你在画一幅画，先画小的细节，然后再画大的背景，MDM 就是这样同时处理不同层次的内容。

- 训练过程是从低分辨率到高分辨率逐步进行的，这让生成高分辨率图像和视频变得更加高效。

- MDM 不仅限于静态图像生成，还可以扩展到视频生成领域，生成符合文本描述的动态视频序列。

- 研究表明，这种方法可以生成分辨率高达 1024x1024 像素的图像，并且即使使用相对较少的数据，它也能很好地生成出符合要求的图像。

🔗GitHub：https://github.com/apple/ml-mdm

🔗论文：https://arxiv.org/pdf/2310.15111

字节跳动AI助手豆包app、电脑版上线音乐生成功能

- 用户可在豆包app或电脑版中生成独特歌曲，选择曲风、氛围和人声，歌词限制在200字以内。

- 提供11种不同音乐风格和多种情绪状态选择，包括民谣、嘻哈、R&B，用户可选择男声或女声演唱。

- 用户可一键生成完整歌词，下载并分享生成的歌曲和封面。音乐生成功能仍在不断完善中，豆包鼓励用户用音乐分享故事，激发创造力。

LSLM：一种新的语音模型

- 由上海交通大学X-LANCE人工智能实验室和字节跳动联合开发的一种新的语言模型

- 能够在说话的同时也能听到外界的声音，从而支持实时的语音交互。

- 而且还可以随时打断它，即时是在嘈杂的环境中也能工作。

🔗项目地址：https://ziyang.tech/LSLM/

程序员的店小二

博客等级

码龄5年

292
原创

5万+
点赞

10万+
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

笔记 2篇

展开全部收起

最新评论

福布斯评10个最佳AI内容检测工具
WordviceChina: 欢迎博主有时间来试试看看 Wordvice AI 写作辅助工具~ 兼备 “查文本AI率” “查重” “翻译” “语法检查纠错” “改写降重润色” “总结” 等功能。 - 其中AI内容检测功能语言模型覆盖面极广，能够检测来自包含ChatGPT 或 Gemini 在内的AI大模型内容，还在不断分析最新输出，以不断更新其识别算法。 - 除此之外还搭建了其它常用功能，欢迎博主有空来试试看哦！ ● 在线查重：线上即时检查相似度，帮助提早防范抄袭问题。 ● 在线翻译：线上支援多种语言即时翻译，帮助突破语言障碍，支持40多种语言。 ● 语法检查：提供轻微/标准/深度/简洁4种编辑模式，校对纠错更精准，支持12种语言。 ● 改写润色：提供流畅/学术/专业正式/专业友好/创意5种改写模式，使用不同的专业语气改写句子，提升可读性，支持12种语言。 ● 总结摘要：迅速掌握文章重点，Key points 一目了然，支持12种语言。
女朋友教务系统抢课老抢不上怎么办，写个代码解决这个问题
POUDRE106: 源码在哪，能开源吗
激活工具也带毒，一批携带病毒的“小马激活工具”被火绒拦截
double_kill.z: 为啥放沙箱里跑没有显示外联行为
大模型 is all you need？
2501_91476357: 写得太好了把专业的知识用自然语言讲出来很好懂，非常感谢博主！！！
20240626 每日AI必读资讯
2501_90889234: 几十年的追寻到如今还是一踏湖涂. 我真是讨厌极了. 我想放弃都难

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。