20240822 每日AI必读资讯

特斯拉雇佣员工通过穿戴动捕服来帮助训练其人形机器人Optimus!

- 该职位被称为“数据采集操作员”,时薪最高可达48美元,要求员工每天行走超过七小时,携带高达30磅的重量,并长时间佩戴VR头显。

- 员工还必须身高在5英尺7英寸到5英尺11英寸之间——这可能与Optimus预计的5英尺8英寸的身高范围相近。

微软发布Phi-3.5-vision 轻量级、多模态的开源模型

- 端侧运行,多模态性能大幅提升,可进行复杂视觉推理

- 具备广泛的图像理解、光学字符识别(OCR)、图表和表格解析、多图像或视频剪辑摘要等功能

- 包括三款模型:

Phi-3.5 Mini Instruct:轻量级,适用于计算受限环境中的推理任务。

Phi-3.5 MoE:结合多个专家模型,适用于复杂的推理任务。
Phi-3.5 Vision Instruct:专注于多模态任务,如图像理解和视频摘要。

🔗模型下载:https://huggingface.co/microsoft/Phi-3.5-vision-instruct 

 

字节跳动 Seed-ASR:自动语音识别模型

- Seed-ASR在超过2000万小时的语音数据和近90万小时的配对ASR数据上进行了训练。

- 支持精准识别普通话和13种中国方言,以及各种口音的英语和其他7种语言。

- 具有强大的上下文感知能力,能够识别在特定上下文下的语音内容。例如,模型可以利用历史对话或会议记录来更准确地识别当前语音中的人名、地名或其他上下文相关的关键词。

🔗项目地址:https://bytedancespeech.github.io/seedasr_tech_report/

- 多领域语音

•日常对话:Seed-ASR 能够识别日常对话中的语音,无论是简单的交流还是包含复杂上下文的信息。

•会议记录:模型能够识别和转录会议中的语音内容,包括多说话人场景和带有背景噪音的环境。

•视频和直播:Seed-ASR 在处理视频和直播中的语音时表现出色,能够适应不同的音频质量和背景环境。

•语音搜索:适用于智能助手和语音搜索场景,模型能够准确识别和理解用户的语音指令。

•特定领域专业术语:Seed-ASR 还能够识别包含专业术语的语音输入,如医疗、科技、汽车、音乐等领域的特定内容。

 🔗 https://blink.csdn.net/details/1792089

OpenAI 推出了 GPT-4o 微调功能,每天免费送100万Token

- 允许开发者为特定用例定制模型,提供每天 100 万个免费的 GPT-4o 训练令牌和 200 万个免费的 GPT-4o mini 令牌。

- @CosineAI团队通过微调 GPT-4o ,使得其Genie AI工程师在 SWE-bench 上达到了 SOTA。

- Genie 能够自动识别和解决错误,构建新功能,并在与用户协作时进行代码重构。

- 通过精细调校的 GPT-4o 模型,Genie 在上周二宣布的新 SWE-bench Verified 基准上取得了 43.8%的 SOTA 分数。Genie 在 SWE-bench Full 上也保持了 30.08%的 SOTA 分数,超越了其之前的 19.27%的 SOTA 分数,成为该基准历史上最大的改进。

🔗原文:https://openai.com/index/gpt-4o-fine-tuning/

🔗文档:https://platform.openai.com/docs/guides/fine-tuning

v0 发布新的基于聊天的网页开发助手!类似Claude的Artifacts功能

- 可生成用户界面、自动编写运行代码

- 拥有丰富的TypeScript、React、Next.js、Vercel等前端技术的知识。

- 可以把v0视为你个人的web前端开发助手。

- 能调试代码、回答开发问题、生成代码,生成代码运行效果和交互界面等。

- v0可以根据你的需求执行以下几种任务:

1、生成用户界面(UI):如果你请求v0生成某种类型的UI(如表单、按钮、布局等),它可以为你编写相应的代码,并生成UI的代码片段。

2、运行代码:v0可以帮助你执行或运行代码段,提供实时反馈,帮助你调试或验证代码的功能。

3、回答编程相关问题:你可以向v0提出关于web开发、前端技术(如TypeScript、React、Next.js等)的任何问题,v0会一步步为你解答,帮助你解决技术问题。

🔗详细介绍及案例演示:https://xiaohu.ai/p/12646

🔗在线体验:https://v0.dev/chat

谷歌开发生物声学模型HeAR:可通过咳嗽、说话、甚至是呼吸来检测疾病

- HeAR使用YouTube上提取的3.13亿段音频片段进行训练,其中包括大约1亿个咳嗽声音。

- 可以仅通过患者声音(如咳嗽、呼吸、清嗓、笑声和说话等)检测出肺结核、COVID-19、慢性阻塞性肺疾病等。

- HeAR系统被测试在13个健康声学事件检测任务、14个咳嗽推断任务和6个肺功能推断任务中,并在许多任务中超过了现有基准模型的性能。

例如,在咳嗽推断任务中,HeAR在10个任务中表现最佳,包括检测COVID-19、肺结核等。此外,HeAR在肺功能推断任务中的表现也非常出色,特别是在用力呼气量(FEV1)和用力肺活量(FVC)等关键指标上。

- 印度Salcit Technologies公司已经应用HeAR模型开发了一款名为Swaasa®的产品,用于分析咳嗽声音并评估肺部健康,特别是在结核病(TB)的早期检测方面。

该公司正在探索 HeAR 如何帮助扩展其生物声学人工智能模型的能力。首先,Swaasa®正在使用 HeAR 来研究和增强基于咳嗽声的结核病早期检测。

🔗https://blink.csdn.net/details/1792099 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值