【AI News | 20250310】每日AI进展

本文链接：https://blog.csdn.net/qq_40894600/article/details/146166196

AI Repos

1、Finer-CAM
Finer-CAM 是一种新型图像识别技术，通过精细化分析，使神经网络能够在面对细微差别时更加精准地识别图像特征。与传统的Class Activation Map（CAM）不同，Finer-CAM通过对比多个类别的预测结果，能够高效锁定那些独特的、与众不同的特征，避免错误分类。它不仅提高了分类精度，还减少了背景干扰，成为细节分析的“利器”。此外，Finer-CAM支持多模态零样本学习，能根据文字描述准确识别图像中的特征，大大提升AI决策过程的透明度和可信度。
在这里插入图片描述

2、HeyGem.ai
Heygem是一款全新离线视频合成工具，专为Windows系统设计，能够精准克隆用户的外貌和声音。它通过先进的AI算法，精确捕捉用户的面部特征和语音细节，生成高度相似的虚拟形象。用户可以通过文本和语音驱动虚拟形象进行视频创作，支持多语言脚本和高效音视频同步，确保自然流畅的对口型。Heygem的离线模式保护了用户隐私，同时界面简洁，操作便捷，适合创作数字人视频。
在这里插入图片描述

3、AI-read-multiple-news-live
该项目是一个基于Web的平台，通过实时抓取公司财务新闻，使用自然语言处理技术（如FinBERT模型）进行情感分析，最终提供投资建议。用户输入公司名称后，系统将分析最新新闻的情感并给出买入、卖出或持有的建议。项目采用Python和Flask作为后端，React用于前端，能够为用户提供简洁直观的界面。
在这里插入图片描述

4、ANUS
Anus（自动化网络化工具系统）是一个开源的AI代理框架，旨在简化任务自动化。通过结合单代理与多代理模式，Anus可执行复杂任务、与多代理协作解决问题、处理文本、图像和音频等多模态输入。它支持OpenAI及开源模型的集成，并提供全面的工具生态系统，如网页自动化、文档处理、代码执行等。Anus具有强大的隐私保护、任务管理与资源分配能力，适用于开发者、研究人员与爱好者，提供灵活且可扩展的解决方案。
在这里插入图片描述

AI News

1、快手可灵 AI 推出全新 AI Effects：FuzzyFuzzy、MochiMochi 和 BoomBoom
可灵 AI 也推出了类似 Pika 的 AI Effects，Web 和 App 现已上线 FuzzyFuzzy、MochiMochi 和 BoomBoom 三种特效。国内版本也同步上线了，分别命名为：FuzzyFuzzy（快来惹毛我）、MochiMochi（捏捏乐）和 BoomBoom（万物膨胀）。

2、硅基智能推出 HeyGen 开源替代品：全离线数字人合成工具
HeyGem 是硅基智能推出的全离线数字人合成工具，支持通过文字和语音驱动数字人形象。提供了从安装 Docker 到启动的详细教程。目前放出的代码只开源了前端部分，最核心依赖的3个 Docker 镜像并未开源。

3、LumaAI 推出 Ray 2：速度提升 3 倍，价格降低 3 倍的视频生成模型
Ray 2是由 LumaAI 最新推出的一款视频生成模型，号称速度比前代快 3 倍，价格便宜 3 倍。该模型支持生成最长 10 秒的视频片段，分辨率可达 720p 或 1080p。支持文生视频、图生视频、音频和控制能力，从官方的演示来看，效果非常不错。

4、LanPaint：推理版局部重绘技术
LanPaint 是一种创新的推理版局部重绘技术，它通过在去噪（denoising）前进行多次迭代“思考”，实现了更精确和自然的图像重绘效果。在 ComfyUI 中使用 LanPaint 非常简单，只需将默认的 KSampler 替换为 LanPaint 的节点即可。

5、ServiceNow 以 28.5 亿美元收购 Moveworks 增强 AI 产品组合
ServiceNow 宣布以28.5亿美元现金加股票的方式收购 Moveworks，一家专注于企业自动化和 AI 工具的公司，交易预计于2025年下半年完成。Moveworks 成立于2016年，致力于通过 AI 技术简化企业 IT 支持及业务流程，其客户包括联合利华和丰田等。此举将结合 ServiceNow 的代理 AI 和 Moveworks 的 AI 助手技术，推动企业 AI 采用。ServiceNow 表示，其 AI 解决方案增长迅速，2024年第四季度订阅收入达29.6亿美元，部分得益于 AI 推动。

6、阿里巴巴新款 RISC-V 芯片助力中国科技自给自足
2025年3月10日，南华早报报道，阿里巴巴推出服务器级玄铁C930处理器，基于开源RISC-V架构，旨在推动中国半导体产业自给自足。该芯片由阿里达摩院研发，适用于高性能计算如数据中心和自动驾驶，将于本月向客户发货。C930性能达每GHz 15分以上，展现其在AI时代的潜力。面对美国技术限制，阿里巴巴通过开源模式加速RISC-V生态建设，计划推出更多新品。中国预计将加大对RISC-V支持，2030年全球出货量或达162亿片，市场规模927亿美元。

7、富士康开发出台湾首个推理大模型FoxBrain
据《华尔街日报》2025年3月10日报道，富士康母公司鸿海自主研发出台湾首个具备先进推理能力的大模型FoxBrain。该模型基于Meta的Llama 3.1架构，专为繁体中文优化，支持数据分析、数学运算及代码生成。鸿海利用英伟达技术支持和120个H100 GPU，在四周内完成训练。FoxBrain性能接近世界一流水平，计划开源以促进行业合作，推动制造与供应链管理进步。更多细节将在3月中旬英伟达技术大会公布。鸿海正借此向AI等领域转型。

8、中国顶尖大学扩招以增强AI及战略领域能力
2025年3月10日，路透社报道，中国多所顶尖大学宣布扩招本科生，重点培养人工智能（AI）等“国家战略需求”领域人才。北京大学计划2025年新增150个名额，聚焦信息科技与工程；人民大学增加超100个名额，强调AI创新；上海交通大学新增150个名额，针对AI、集成电路等前沿技术。此举响应中国2035年建设“教育强国”计划，继DeepSeek AI成功后进一步推动本土STEM人才培养。教育部还将AI教育引入中小学，提升学生数字技能。

9、字节跳动开源COMET技术，大模型训练效率提升1.7倍
字节跳动豆包大模型团队近日宣布开源COMET技术，成功优化混合专家模型（MoE）架构，实现训练效率提升1.7倍，并降低40%成本。该技术已在字节万卡集群中应用，节省数百万GPU小时算力，且具备强兼容性，可无缝接入主流MoE训练框架。相比DeepSeek的DualPipe方案，COMET更灵活，并可与其结合使用，进一步降低训练成本。这一突破性技术的开源，或将加速大模型的研发与应用。

10、智元发布家务机器人基座大模型 GO-1，成功率提升32%
3月10日，智元机器人推出其首个通用具身基座大模型 GO-1，通过学习人类视频，在递送水杯、制作餐点等家务任务上表现卓越，成功率提升32%。GO-1基于ViLLA架构，具备小样本泛化能力，并能适应不同机器人形态。此外，智元开源百万级真机数据集 AgiBot World，为家务机器人训练奠定基础。这一突破标志着具身智能迈向普及，推动人形机器人产业化进程。

11、开源神器 Browser Use 爆火，AI 浏览器自动化引发热潮
近日，开源项目 Browser Use 在科技圈引爆关注，让 AI 代理能够像人类一样操控浏览器。该项目支持自然语言指令，无需代码编写，同时兼容 DeepSeek、Claude、Gemini 和 GPT 等 AI 模型，支持本地及云端部署。短短时间内，该项目已在 GitHub 斩获 37,000+ 星，广受开发者好评。凭借强大自动化能力，Browser Use 有望成为 AI 浏览器自动化和 RPA 领域的核心技术。

12、华为昇腾携手阶跃星辰开源多模态模型，助力 AI 创新
近日，阶跃星辰在魔乐社区开源 Step-Video 和 Step-Audio 两款多模态大模型，分别用于视频生成和语音交互。Step-Video 为全球最大开源视频生成模型，支持 204 帧、540P 视频输出，Step-Audio 可生成多种情感和个性化语音。两款模型基于华为昇腾 CANN 适配，提供免费算力支持，降低使用门槛。阿里云、TCL 等企业已接入该生态，推动 AI 多模态应用迈向新高度。

13、抖音重拳出击 AI 炒股诈骗，严管虚假投资内容
近日，抖音安全中心加强监管 AI 选股工具与炒股课程内容，打击无资质账号发布虚假投资信息的行为。一些账号借助 AI 炒股噱头，误导投资者，甚至实施诈骗，导致用户经济损失。抖音已封禁违规账号、下架相关视频，并对严重者移交公安机关处理。平台提醒用户，投资需谨慎，警惕 AI 炒股骗局，避免上当受骗。

14、国家超算互联网平台接入阿里千问大模型，开放 QwQ-32B API 免费调用
国家超算互联网平台宣布正式接入阿里巴巴通义千问大模型，并对外开放 QwQ-32B API，用户可免费获取 100万 tokens 调用额度。QwQ-32B 作为阿里最新 32B 级推理模型，性能接近 DeepSeek-R1 671B 满血版，在 Hugging Face 趋势榜快速登顶。阿里通义团队已开源 200+ 模型，其中 Qwen 语言模型和 Wan 视觉模型生态规模超越 Meta Llama，成为全球最大开源大模型体系之一。

15、华为AI模型生成专利公布，可提升生成AI模型效率
近日，华为技术有限公司公布了一项 “AI模型的生成方法及装置” 相关专利。该专利通过优化算子执行时长、内存占用及卸载时间，提高 AI 模型训练效率，减少资源消耗。该方法构建目标优化函数，并通过全局优化确定重计算或内存卸载策略，从而提升模型生成性能。该专利的公布，表明华为在 AI 算法优化与硬件加速方面的持续投入，为 AI 训练提供更高效的解决方案。

16、谷歌 Gemini Embedding：文本嵌入领域的新王者
谷歌推出的 Gemini Embedding 近日在 Massive Text Embedding Benchmark (MTEB) 中表现出色，成为当前最强的文本嵌入模型。该模型能够将文本转换为数值表示，在语义搜索、推荐系统和文档检索等应用中表现尤为优异。在 MTEB 基准测试中，Gemini Embedding 的得分领先于竞争对手，并在配对分类、检索和重排序任务中取得了卓越成绩。该模型的推出不仅巩固了谷歌在 AI 领域的领导地位，还为搜索引擎、跨语言应用和企业服务等多个领域的 AI 技术应用开辟了新前景。

17、Firecrawl推出LLM.txt API：提供网址即可生成任意网站的LLM.txt
Firecrawl近期推出了LLMs.txt生成器接口（Alpha版），允许用户通过提供网址来生成大语言模型(LLM)训练所需的文本文件。该工具会爬取网站内容，并生成两种格式的文本文件：llms.txt（简明总结）和llms-full.txt（详细内容）。用户可以设定爬取页面数量和是否生成详细文件，适用于需要进行文本分析和训练的场景。此功能目前处于Alpha阶段，且仅支持公开页面，未来可能会根据反馈进行调整。

18、华为组建医疗卫生军团，推动AI医疗行业技术与生态对接
据媒体报道，华为已组建医疗卫生军团，尽管尚未对外正式宣布，但内部文件显示，该军团的成立旨在解决AI在医疗行业落地过程中的技术与生态对接问题。华为DCS领域总裁张伟力将担任医疗卫生军团负责人。郭平解释，军团旨在通过短链条运作和管理授权，为客户和自身创造共赢商业模式。自2021年起，华为已组建超过20个行业军团，覆盖多个垂直领域，包括能源、交通、政务等。

Others

1、Financial Data
金融数据- 股票市场和金融数据 API。免费计划允许每天 300 个请求。

2、easysitesearch
搜索小工具和 API，具有基于网络爬虫的自动索引功能。免费无限搜索，最多可搜索 50 个子页面。

3、使用Gradio、Pydantic-AI、Supabase和DeepSeek构建AI驱动的费用追踪系统
介绍了如何利用Gradio、Pydantic-AI、Supabase和DeepSeek等工具构建一个智能的费用追踪系统。通过使用Pydantic定义数据模型和Pydantic-AI创建AI代理，系统能够根据用户输入自动记录和分类费用，并提供财务建议。同时，Supabase作为后端数据库，用于存储和检索费用数据。最后，通过Gradio构建了一个简洁的用户界面，便于用户交互和实时反馈。