GOAT‘S AI早鸟报Part11

GOAT_vAv_

已于 2025-04-01 15:51:52 修改

阅读量968

点赞数 24

分类专栏：创业与前沿技术探索文章标签：人工智能创业创新科技业界资讯

于 2025-04-01 15:46:35 首次发布

本文链接：https://blog.csdn.net/m0_73753100/article/details/146914484

版权

创业与前沿技术探索专栏收录该内容

16 篇文章

订阅专栏

精彩集锦：

资讯

FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎

https://mp.weixin.qq.com/s/Ev9x6AWGF4S6zQpPpWtg9g

清华团队开源赤兔推理引擎，实现非H卡设备运行原生FP8模型突破。在A800集群实测，部署DeepSeek-671B满血版推理服务，相比vLLM方案，GPU数量减半，输出速度提升3.15倍。赤兔引擎助力国产大模型基础设施建设，加速形成国产大模型、国产引擎、国产芯片完整技术闭环。其核心优势在于全场景性能优化与架构适应性，支持多元算力适配、全场景可伸缩、长期稳定运行，通过指令级优化关键算子，实现FP8数据原生处理。开源赤兔引擎降低大模型落地门槛，为国产AI算力发展带来新契机，有助于弥合国产芯片与国际先进芯片差距，减轻芯片厂商软件开发负担，推动国产芯片产业发展。

推特

Sesame Labs发布对话语音模型 (Conversational Speech Mode) , 训练数据超过100万小时

https://x.com/reach vb/status/1900304515376799915

卧槽, Sesame Labs刚刚发布了 CSM (Conversational Speech Model, 对话语音模型)——

采用Apache 2.0许可证！

训练数据超过100万小时

具备上下文感知和情感智能的语音能力

支持语音克隆&水印技术

超快实时合成

基于LLaMA架构&类似Mimi的解码器

Apache 2.0许可证

模型权重已上传至Hub

太酷了！能看到如此强大的语音基础模型发布，真的令人兴奋！致敬@ sesame团队！

Karpathy 99%的注意力将从人类注意力转移到LLM注意力

https://x.com/karpathy/status/1899876370492383450

已经是2025年了，大多数内容仍然是为人类编写的，而不是为LLMs（大语言模型）编写的。但99.9%的注意力即将从人类注意力转向LLM注意力。

比如，99%的开源库文档仍然只是一些美观的.html静态页面，假设是给人类点击查看的。但在2025年，这些文档应该是一个your project. md纯文本文件，专门用于放入LLM的上下文窗口。

所有内容都应该如此。

产品

Amiry AI：人工智能驱动的智慧城市路线规划工具

https://amiry.io/

Amiry是一款由人工智能驱动的城市向导应用，能在数秒内生成个性化路线。只需输入你的时间、兴趣点以及出行方式（步行、骑行或跑步），即可轻松开启探索之旅。无需规划，无需调研，就能带你前往最佳景点，还提供实时语音导览。

Amiry会根据以下因素在几秒钟内生成一条个性化的步行、骑行或跑步路线：

你可支配的时间（1至4小时）

你的兴趣点（必去景点、建筑、美食、夜生活等等）

你的出行方式（步行、骑行或跑步）

然后，Amiry会为你生成最佳路线，并在沿途提供实时语音导览，讲解相关故事、历史事实和有趣的见解。

投融资

Bria获得新一轮融资，用于开发基于授权数据训练的AI模型

https://techcrunch.com/2025/03/13/bria-lands-new-funding-for-ai-models-trained-on-licensed-data/

Bria是一家总部位于纽约和特拉维夫的初创公司，成立于2023年，专注于开发图像生成模型，使用的是经过授权的内容，而非从公共网站抓取的大量数据。该公司支付给约20个合作伙伴的费用，包括Getty Images,利用这些数据来训练其图像生成模型，并为这些模型设置内容保护措施。Bria的CEO亚尔·阿达托 (Yair Adato) 表示，公司通过“程序化”方式根据图像所有者的“整体影响力”进行补偿。

Bria的基础模型包含十亿张图像和数百万段视频。公司通过训练全球代表性的数据集，减少了AI生成图像中可能出现的偏见，从而确保其模型产生具有多样性的视觉内容，适用于各种创意应用。Bria还提供插件，支持Photoshop、Figma等图像编辑和设计软件，并提供一个API接口，允许客户根据具体需求对公司模型进行定制。无论用户是在Bria的平台上还是在外部计算环境（如公共云）中使用这些模型，数据和结果的所有权始终归用户所有。

Bria的企业客户可以支付费用访问源代码和模型。公司提供超过30个专门的API，供用户创建和修改视觉内容，采用基于订阅和使用量的定价模式。企业还可以支付费用，通过品牌资产对生成的AI模型进行微调，创建符合品牌视觉识别的定制引擎。

Bria的愿景是建立一个“知识产权生态系统”，使企业能够从媒体集团获得授权图像，用于商业创作，并确保符合相关合规要求。未来，公司还计划将平台和模型扩展到更多的媒体类型，包括音乐、视频和文本，并支持设备端应用。

Bria最近宣布，在Red Dot Capital的主导下完成了4000万美元的B轮融资，参与方包括Maor Investments、Entrée Capital、GFT Ventures、Intel Capital和IN Venture.这使得Bria的总融资额达到了约6500万美元。此次融资的大部分资金将用于产品开发。阿达托表示，Bria目前已经拥有40个客户，且去年年度经常性收入增长超过400%。公司还将扩充团队，招聘更多领域的专家，包括生成AI研究员、音乐和视频领域的工程师、全球销售和营销领导人、知识产权和版权专家，以及生成AI顾问，预计到年底员工人数将翻倍。

学习

榨干ktransfomers的每一滴性能

在进行DeepSeek R1 671b Q4的性能优化时，我使用了两片9275f处理器、24条6000MHz内存和一张4070 Ti显卡，成功达到了18token/s的解码速度，表现已经相当流畅。然而在尝试Q8模型时，解码速度只有12-13token/s，表现较慢。作为DPDK开发者，我决定对ktransformers进行一些外围优化，重点提升性能。

首先，通过修改CMakeLists. txt文件，在编译时启用了符号信息，这有助于利用perf工具找出热点函数。优化过程中，我还减少了nvcc编译时间，通过修改setup. py文件来避免每次编译CUDA代码，从而提高调试效率。

在使用perf分析性能时，发现大部分时间消耗集中在worker线程和tensor运算函数中，但一个意外的发现是，libc中的获取时间函数占用的CPU时间也很高。这个问题来源于worker线程中每次循环都调用获取当前时间的函数。为此，我调整了代码，设置一个" idle"计数器，当没有任务时进入睡眠，而避免频繁调用时间获取函数。通过调整"idle"值和CPU频率，优化了睡眠机制，减少了不必要的系统调用。

内存管理方面，ktransformers并未使用巨页内存，而我使用了1GB巨页来减少内存管理开销，尤其在处理大规模模型时更为高效。同时，确保每次内存分配都进行64字节对齐，以便提升AVX512指令集的性能。

为了减少启动时间，我通过持久化巨页内存避免了每次从硬盘读取模型。通过只加载一次模型，后续可以直接通过计算内存偏移来访问模型，成功将启动时间从十几分钟缩短到十几秒。这大大降低了性能调试时的试错成本。

核绑定和NUMA优化也是提升性能的关键部分。通过固定线程与CPU核的绑定，减少了CPU上下文切换带来的损耗。进一步优化了work steal机制，通过减少跨NUMA的atomic操作，提高了性能。此外，我还使用了更精确的NUMA任务表分配，避免了false sharing带来的性能问题。

针对分支预测，我通过在循环中加上“unlikely”标记，提示CPU优化分支判断，尽管这一优化的实际效果不大。为了减少不必要的work steal操作，我在核绑定时禁用了这一机制，发现确实带来了一些微小的性能提升。

在Python中，GIL造成了HTTP响应构造的性能瓶颈。我通过减少yield次数来减少阻塞，使得模型推理更加高效。为了进一步提升性能，我还调整了CPU频率，确保在有任务时CPU保持在较高的频率上，从而提升了计算速度。

经过这些优化，性能从18token/s提升到22token/s,Q8模型的解码速度也达到了：16+token/s,从流畅提升至更高的速度。这些优化主要集中在内存管理、核绑定、NUMA优化、以及减少不必要的系统调用等方面，最终显著提升了整体性能。