【AI News | 20250310】每日AI进展

AI Repos

1、Finer-CAM
Finer-CAM 是一种新型图像识别技术,通过精细化分析,使神经网络能够在面对细微差别时更加精准地识别图像特征。与传统的Class Activation Map(CAM)不同,Finer-CAM通过对比多个类别的预测结果,能够高效锁定那些独特的、与众不同的特征,避免错误分类。它不仅提高了分类精度,还减少了背景干扰,成为细节分析的“利器”。此外,Finer-CAM支持多模态零样本学习,能根据文字描述准确识别图像中的特征,大大提升AI决策过程的透明度和可信度。
在这里插入图片描述

2、HeyGem.ai
Heygem是一款全新离线视频合成工具,专为Windows系统设计,能够精准克隆用户的外貌和声音。它通过先进的AI算法,精确捕捉用户的面部特征和语音细节,生成高度相似的虚拟形象。用户可以通过文本和语音驱动虚拟形象进行视频创作,支持多语言脚本和高效音视频同步,确保自然流畅的对口型。Heygem的离线模式保护了用户隐私,同时界面简洁,操作便捷,适合创作数字人视频。
在这里插入图片描述

3、AI-read-multiple-news-live
该项目是一个基于Web的平台,通过实时抓取公司财务新闻,使用自然语言处理技术(如FinBERT模型)进行情感分析,最终提供投资建议。用户输入公司名称后,系统将分析最新新闻的情感并给出买入、卖出或持有的建议。项目采用Python和Flask作为后端,React用于前端,能够为用户提供简洁直观的界面。
在这里插入图片描述

4、ANUS
Anus(自动化网络化工具系统)是一个开源的AI代理框架,旨在简化任务自动化。通过结合单代理与多代理模式,Anus可执行复杂任务、与多代理协作解决问题、处理文本、图像和音频等多模态输入。它支持OpenAI及开源模型的集成,并提供全面的工具生态系统,如网页自动化、文档处理、代码执行等。Anus具有强大的隐私保护、任务管理与资源分配能力,适用于开发者、研究人员与爱好者,提供灵活且可扩展的解决方案。
在这里插入图片描述

AI News

1、快手可灵 AI 推出全新 AI Effects:FuzzyFuzzy、MochiMochi 和 BoomBoom
可灵 AI 也推出了类似 Pika 的 AI Effects,Web 和 App 现已上线 FuzzyFuzzy、MochiMochi 和 BoomBoom 三种特效。国内版本也同步上线了,分别命名为:FuzzyFuzzy(快来惹毛我)、MochiMochi(捏捏乐)和 BoomBoom(万物膨胀)。

2、硅基智能推出 HeyGen 开源替代品:全离线数字人合成工具
HeyGem 是硅基智能推出的全离线数字人合成工具,支持通过文字和语音驱动数字人形象。提供了从安装 Docker 到启动的详细教程。目前放出的代码只开源了前端部分,最核心依赖的3个 Docker 镜像并未开源。

3、LumaAI 推出 Ray 2:速度提升 3 倍,价格降低 3 倍的视频生成模型
Ray 2是由 LumaAI 最新推出的一款视频生成模型,号称速度比前代快 3 倍,价格便宜 3 倍。该模型支持生成最长 10 秒的视频片段,分辨率可达 720p 或 1080p。支持文生视频、图生视频、音频和控制能力,从官方的演示来看,效果非常不错。

4、LanPaint:推理版局部重绘技术
LanPaint 是一种创新的推理版局部重绘技术,它通过在去噪(denoising)前进行多次迭代“思考”,实现了更精确和自然的图像重绘效果。在 ComfyUI 中使用 LanPaint 非常简单,只需将默认的 KSampler 替换为 LanPaint 的节点即可。

5、ServiceNow 以 28.5 亿美元收购 Moveworks 增强 AI 产品组合
ServiceNow 宣布以28.5亿美元现金加股票的方式收购 Moveworks,一家专注于企业自动化和 AI 工具的公司,交易预计于2025年下半年完成。Moveworks 成立于2016年,致力于通过 AI 技术简化企业 IT 支持及业务流程,其客户包括联合利华和丰田等。此举将结合 ServiceNow 的代理 AI 和 Moveworks 的 AI 助手技术,推动企业 AI 采用。ServiceNow 表示,其 AI 解决方案增长迅速,2024年第四季度订阅收入达29.6亿美元,部分得益于 AI 推动。

6、阿里巴巴新款 RISC-V 芯片助力中国科技自给自足
2025年3月10日,南华早报报道,阿里巴巴推出服务器级玄铁C930处理器,基于开源RISC-V架构,旨在推动中国半导体产业自给自足。该芯片由阿里达摩院研发,适用于高性能计算如数据中心和自动驾驶,将于本月向客户发货。C930性能达每GHz 15分以上,展现其在AI时代的潜力。面对美国技术限制,阿里巴巴通过开源模式加速RISC-V生态建设,计划推出更多新品。中国预计将加大对RISC-V支持,2030年全球出货量或达162亿片,市场规模927亿美元。

7、富士康开发出台湾首个推理大模型FoxBrain
据《华尔街日报》2025年3月10日报道,富士康母公司鸿海自主研发出台湾首个具备先进推理能力的大模型FoxBrain。该模型基于Meta的Llama 3.1架构,专为繁体中文优化,支持数据分析、数学运算及代码生成。鸿海利用英伟达技术支持和120个H100 GPU,在四周内完成训练。FoxBrain性能接近世界一流水平,计划开源以促进行业合作,推动制造与供应链管理进步。更多细节将在3月中旬英伟达技术大会公布。鸿海正借此向AI等领域转型。

8、中国顶尖大学扩招以增强AI及战略领域能力
2025年3月10日,路透社报道,中国多所顶尖大学宣布扩招本科生,重点培养人工智能(AI)等“国家战略需求”领域人才。北京大学计划2025年新增150个名额,聚焦信息科技与工程;人民大学增加超100个名额,强调AI创新;上海交通大学新增150个名额,针对AI、集成电路等前沿技术。此举响应中国2035年建设“教育强国”计划,继DeepSeek AI成功后进一步推动本土STEM人才培养。教育部还将AI教育引入中小学,提升学生数字技能。

9、字节跳动开源COMET技术,大模型训练效率提升1.7倍
字节跳动豆包大模型团队近日宣布开源COMET技术,成功优化混合专家模型(MoE)架构,实现训练效率提升1.7倍,并降低40%成本。该技术已在字节万卡集群中应用,节省数百万GPU小时算力,且具备强兼容性,可无缝接入主流MoE训练框架。相比DeepSeek的DualPipe方案,COMET更灵活,并可与其结合使用,进一步降低训练成本。这一突破性技术的开源,或将加速大模型的研发与应用。

10、智元发布家务机器人基座大模型 GO-1,成功率提升32%
3月10日,智元机器人推出其首个通用具身基座大模型 GO-1,通过学习人类视频,在递送水杯、制作餐点等家务任务上表现卓越,成功率提升32%。GO-1基于ViLLA架构,具备小样本泛化能力,并能适应不同机器人形态。此外,智元开源百万级真机数据集 AgiBot World,为家务机器人训练奠定基础。这一突破标志着具身智能迈向普及,推动人形机器人产业化进程。

11、开源神器 Browser Use 爆火,AI 浏览器自动化引发热潮
近日,开源项目 Browser Use 在科技圈引爆关注,让 AI 代理能够像人类一样操控浏览器。该项目支持自然语言指令,无需代码编写,同时兼容 DeepSeek、Claude、Gemini 和 GPT 等 AI 模型,支持本地及云端部署。短短时间内,该项目已在 GitHub 斩获 37,000+ 星,广受开发者好评。凭借强大自动化能力,Browser Use 有望成为 AI 浏览器自动化和 RPA 领域的核心技术。

12、华为昇腾携手阶跃星辰开源多模态模型,助力 AI 创新
近日,阶跃星辰在魔乐社区开源 Step-Video 和 Step-Audio 两款多模态大模型,分别用于视频生成和语音交互。Step-Video 为全球最大开源视频生成模型,支持 204 帧、540P 视频输出,Step-Audio 可生成多种情感和个性化语音。两款模型基于华为昇腾 CANN 适配,提供免费算力支持,降低使用门槛。阿里云、TCL 等企业已接入该生态,推动 AI 多模态应用迈向新高度。

13、抖音重拳出击 AI 炒股诈骗,严管虚假投资内容
近日,抖音安全中心加强监管 AI 选股工具与炒股课程内容,打击无资质账号发布虚假投资信息的行为。一些账号借助 AI 炒股噱头,误导投资者,甚至实施诈骗,导致用户经济损失。抖音已封禁违规账号、下架相关视频,并对严重者移交公安机关处理。平台提醒用户,投资需谨慎,警惕 AI 炒股骗局,避免上当受骗。

14、国家超算互联网平台接入阿里千问大模型,开放 QwQ-32B API 免费调用
国家超算互联网平台宣布正式接入阿里巴巴通义千问大模型,并对外开放 QwQ-32B API,用户可免费获取 100万 tokens 调用额度。QwQ-32B 作为阿里最新 32B 级推理模型,性能接近 DeepSeek-R1 671B 满血版,在 Hugging Face 趋势榜快速登顶。阿里通义团队已开源 200+ 模型,其中 Qwen 语言模型 和 Wan 视觉模型 生态规模超越 Meta Llama,成为全球最大开源大模型体系之一。

15、华为AI模型生成专利公布,可提升生成AI模型效率
近日,华为技术有限公司 公布了一项 “AI模型的生成方法及装置” 相关专利。该专利通过优化算子执行时长、内存占用及卸载时间,提高 AI 模型训练效率,减少资源消耗。该方法构建目标优化函数,并通过全局优化确定 重计算或内存卸载策略,从而提升模型生成性能。该专利的公布,表明华为在 AI 算法优化与硬件加速 方面的持续投入,为 AI 训练提供更高效的解决方案。

16、谷歌 Gemini Embedding:文本嵌入领域的新王者
谷歌推出的 Gemini Embedding 近日在 Massive Text Embedding Benchmark (MTEB) 中表现出色,成为当前最强的文本嵌入模型。该模型能够将文本转换为数值表示,在语义搜索、推荐系统和文档检索等应用中表现尤为优异。在 MTEB 基准测试中,Gemini Embedding 的得分领先于竞争对手,并在配对分类、检索和重排序任务中取得了卓越成绩。该模型的推出不仅巩固了谷歌在 AI 领域的领导地位,还为搜索引擎、跨语言应用和企业服务等多个领域的 AI 技术应用开辟了新前景。

17、Firecrawl推出LLM.txt API:提供网址即可生成任意网站的LLM.txt
Firecrawl近期推出了LLMs.txt生成器接口(Alpha版),允许用户通过提供网址来生成大语言模型(LLM)训练所需的文本文件。该工具会爬取网站内容,并生成两种格式的文本文件:llms.txt(简明总结)和llms-full.txt(详细内容)。用户可以设定爬取页面数量和是否生成详细文件,适用于需要进行文本分析和训练的场景。此功能目前处于Alpha阶段,且仅支持公开页面,未来可能会根据反馈进行调整。

18、华为组建医疗卫生军团,推动AI医疗行业技术与生态对接
据媒体报道,华为已组建医疗卫生军团,尽管尚未对外正式宣布,但内部文件显示,该军团的成立旨在解决AI在医疗行业落地过程中的技术与生态对接问题。华为DCS领域总裁张伟力将担任医疗卫生军团负责人。郭平解释,军团旨在通过短链条运作和管理授权,为客户和自身创造共赢商业模式。自2021年起,华为已组建超过20个行业军团,覆盖多个垂直领域,包括能源、交通、政务等。

Others

1、Financial Data
金融数据- 股票市场和金融数据 API。免费计划允许每天 300 个请求。

2、easysitesearch
搜索小工具和 API,具有基于网络爬虫的自动索引功能。免费无限搜索,最多可搜索 50 个子页面。

3、使用Gradio、Pydantic-AI、Supabase和DeepSeek构建AI驱动的费用追踪系统
介绍了如何利用Gradio、Pydantic-AI、Supabase和DeepSeek等工具构建一个智能的费用追踪系统。通过使用Pydantic定义数据模型和Pydantic-AI创建AI代理,系统能够根据用户输入自动记录和分类费用,并提供财务建议。同时,Supabase作为后端数据库,用于存储和检索费用数据。最后,通过Gradio构建了一个简洁的用户界面,便于用户交互和实时反馈。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值