精彩集锦:
资讯
FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎
https://mp.weixin.qq.com/s/Ev9x6AWGF4S6zQpPpWtg9g
清华团队开源赤兔推理引擎,实现非H卡设备运行原生FP8模型突破。在A800集群实测,部署DeepSeek-671B满血版推理服务,相比vLLM方案,GPU数量减半,输出速度提升3.15倍。赤兔引擎助力国产大模型基础设施建设,加速形成国产大模型、国产引擎、国产芯片完整技术闭环。其核心优势在于全场景性能优化与架构适应性,支持多元算力适配、全场景可伸缩、长期稳定运行,通过指令级优化关键算子,实现FP8数据原生处理。开源赤兔引擎降低大模型落地门槛,为国产AI算力发展带来新契机,有助于弥合国产芯片与国际先进芯片差距,减轻芯片厂商软件开发负担,推动国产芯片产业发展。
推特
Sesame Labs发布对话语音模型 (Conversational Speech Mode) , 训练数据超过100万小时
https://x.com/reach vb/status/1900304515376799915
卧槽, Sesame Labs刚刚发布了 CSM (Conversational Speech Model, 对话语音模型)——
采用Apache 2.0许可证!
训练数据超过100万小时
具备上下文感知和情感智能的语音能力
支持语音克隆&水印技术
超快 实时合成
基于LLaMA架构&类似Mimi的解码器
Apache 2.0许可证
模型权重已上传至Hub
太酷了!能看到如此强大的语音基础模型发布,真的令人兴奋!致敬@ sesame团队!
Karpathy 99%的注意力将从人类注意力转移到LLM注意力
https://x.com/karpathy/status/1899876370492383450
已经是2025年了,大多数内容仍然是为人类编写的,而不是为LLMs(大语言模型)编写的。但99.9%的注意力即将从人类注意力转向LLM注意力。
比如,99%的开源库文档仍然只是一些美观的.html静态页面,假设是给人类点击查看的。但在2025年,这些文档应该是一个your project. md纯文本文件,专门用于放入LLM的上下文窗口。
所有内容都应该如此。
产品
Amiry AI:人工智能驱动的智慧城市路线规划工具
Amiry是一款由人工智能驱动的城市向导应用,能在数秒内生成个性化路线。只需输入你的时间、兴趣点以及出行方式(步行、骑行或跑步),即可轻松开启探索之旅。无需规划,无需调研,就能带你前往最佳景点,还提供实时语音导览。
Amiry会根据以下因素在几秒钟内生成一条个性化的步行、骑行或跑步路线:
你可支配的时间(1至4小时)
你的兴趣点(必去景点、建筑、美食、夜生活等等)
你的出行方式(步行、骑行或跑步)
然后,Amiry会为你生成最佳路线,并在沿途提供实时语音导览,讲解相关故事、历史事实和有趣的见解。
投融资
Bria获得新一轮融资,用于开发基于授权数据训练的AI模型
https://techcrunch.com/2025/03/13/bria-lands-new-funding-for-ai-models-trained-on-licensed-data/
Bria是一家总部位于纽约和特拉维夫的初创公司,成立于2023年,专注于开发图像生成模型,使用的是经过授权的内容,而非从公共网站抓取的大量数据。该公司支付给约20个合作伙伴的费用,包括Getty Images,利用这些数据来训练其图像生成模型,并为这些模型设置内容保护措施。Bria的CEO亚尔·阿达托 (Yair Adato) 表示,公司通过“程序化”方式根据图像所有者的“整体影响力”进行补偿。
Bria的基础模型包含十亿张图像和数百万段视频。公司通过训练全球代表性的数据集,减少了AI生成图像中可能出现的偏见,从而确保其模型产生具有多样性的视觉内容,适用于各种创意应用。Bria还提供插件,支持Photoshop、Figma等图像编辑和设计软件,并提供一个API接口,允许客户根据具体需求对公司模型进行定制。无论用户是在Bria的平台上还是在外部计算环境(如公共云)中使用这些模型,数据和结果的所有权始终归用户所有。
Bria的企业客户可以支付费用访问源代码和模型。公司提供超过30个专门的API,供用户创建和修改视觉内容,采用基于订阅和使用量的定价模式。企业还可以支付费用,通过品牌资产对生成的AI模型进行微调,创建符合品牌视觉识别的定制引擎。
Bria的愿景是建立一个“知识产权生态系统”,使企业能够从媒体集团获得授权图像,用于商业创作,并确保符合相关合规要求。未来,公司还计划将平台和模型扩展到更多的媒体类型,包括音乐、视频和文本,并支持设备端应用。
Bria最近宣布,在Red Dot Capital的主导下完成了4000万美元的B轮融资,参与方包括Maor Investments、Entrée Capital、GFT Ventures、Intel Capital和IN Venture.这使得Bria的总融资额达到了约6500万美元。此次融资的大部分资金将用于产品开发。阿达托表示,Bria目前已经拥有40个客户,且去年年度经常性收入增长超过400%。公司还将扩充团队,招聘更多领域的专家,包括生成AI研究员、音乐和视频领域的工程师、全球销售和营销领导人、知识产权和版权专家,以及生成AI顾问,预计到年底员工人数将翻倍。
学习
榨干ktransfomers的每一滴性能
在进行DeepSeek R1 671b Q4的性能优化时,我使用了两片9275f处理器、24条6000MHz内存和一张4070 Ti显卡,成功达到了18token/s的解码速度,表现已经相当流畅。然而在尝试Q8模型时,解码速度只有12-13token/s,表现较慢。作为DPDK开发者,我决定对ktransformers进行一些外围优化,重点提升性能。
首先,通过修改CMakeLists. txt文件,在编译时启用了符号信息,这有助于利用perf工具找出热点函数。优化过程中,我还减少了nvcc编译时间,通过修改setup. py文件来避免每次编译CUDA代码,从而提高调试效率。
在使用perf分析性能时,发现大部分时间消耗集中在worker线程和tensor运算函数中,但一个意外的发现是,libc中的获取时间函数占用的CPU时间也很高。这个问题来源于worker线程中每次循环都调用获取当前时间的函数。为此,我调整了代码,设置一个" idle"计数器,当没有任务时进入睡眠,而避免频繁调用时间获取函数。通过调整"idle"值和CPU频率,优化了睡眠机制,减少了不必要的系统调用。
内存管理方面,ktransformers并未使用巨页内存,而我使用了1GB巨页来减少内存管理开销,尤其在处理大规模模型时更为高效。同时,确保每次内存分配都进行64字节对齐,以便提升AVX512指令集的性能。
为了减少启动时间,我通过持久化巨页内存避免了每次从硬盘读取模型。通过只加载一次模型,后续可以直接通过计算内存偏移来访问模型,成功将启动时间从十几分钟缩短到十几秒。这大大降低了性能调试时的试错成本。
核绑定和NUMA优化也是提升性能的关键部分。通过固定线程与CPU核的绑定,减少了CPU上下文切换带来的损耗。进一步优化了work steal机制,通过减少跨NUMA的atomic操作,提高了性能。此外,我还使用了更精确的NUMA任务表分配,避免了false sharing带来的性能问题。
针对分支预测,我通过在循环中加上“unlikely”标记,提示CPU优化分支判断,尽管这一优化的实际效果不大。为了减少不必要的work steal操作,我在核绑定时禁用了这一机制,发现确实带来了一些微小的性能提升。
在Python中,GIL造成了HTTP响应构造的性能瓶颈。我通过减少yield次数来减少阻塞,使得模型推理更加高效。为了进一步提升性能,我还调整了CPU频率,确保在有任务时CPU保持在较高的频率上,从而提升了计算速度。
经过这些优化,性能从18token/s提升到22token/s,Q8模型的解码速度也达到了:16+token/s,从流畅提升至更高的速度。这些优化主要集中在内存管理、核绑定、NUMA优化、以及减少不必要的系统调用等方面,最终显著提升了整体性能。
本期AI产品合集:
Amiry AI
Amiry是一款由人工智能驱动的城市向导应用,能在数秒内生成个性化路线。只需输入你的时间、兴趣点以及出行方式(步行、骑行或跑步),即可轻松开启探索之旅。无需规划,无需调研,就能带你前往最佳景点,还提供实时语音导览。
Amiry会根据以下因素在几秒钟内生成一条个性化的步行、骑行或跑步路线:
你可支配的时间(1至4小时)
你的兴趣点(必去景点、建筑、美食、夜生活等等)
你的出行方式(步行、骑行或跑步)
然后,Amiry会为你生成最佳路线,并在沿途提供实时语音导览,讲解相关故事、历史事实和有趣的见解。
感谢阅读,如果你喜欢GOAT的文章,欢迎一键三连哦(≧∀≦)ゞ~~