• 博客(431)
  • 收藏
  • 关注

原创 如何在百度百舸部署满血版DeepSeek-V3、DeepSeek-R1模型

百度百舸·AI异构计算平台已支持快速部署DeepSeek-V3、DeepSeek-R1及其蒸馏的Llama、Qwen等小规模dense模型。您可以登录百度百舸平台快速部署DeepSeek系列模型体验模型效果。

2025-02-13 11:07:42 477

原创 首日调用客户破1.5万!DeepSeek-V3/R1上线背后的超低推理成本技术揭秘

2月3日,百度智能云千帆大模型平台正式上线了,当前还可享受限时免费服务。这一突破性进展的背后,是百度智能云在上的深度融合。本文将深度解析其技术实现路径。已上架至千帆ModelBuilder「模型广场」可在千帆ModelBuilder「体验中心」立即体验。

2025-02-11 10:13:16 615

原创 唤醒 AI 算力,专有云 ABC Stack 面向企业级智算平台的 GPU 提效实践

从「建好」到「用好」,企业级智算平台借助专有云 ABC Stack 的 GPU 提效服务,应对大模型业务挑战,唤醒 AI 算力,加速 AI 原生业务的落地。

2025-02-06 10:27:56 661

原创 百度APP iOS端磁盘优化实践(上)

2.1 ios沙盒系统沙盒机制是iOS系统中的一种安全体系。每个iOS程序都有一个独立的文件系统,而且只能在对应的文件系统中进行操作,此区域被称之为沙盒(SandBox)。APP中所有文件都保存在此,如文本文件、图片、图标、媒体资源、Mach-O等。主要包含4个目录 MyApp.app、Documents、Library、tmp。MyApp.app目录包含应用程序及其所有资源,即.ipa安装包解压后的.app内容,仅支持只读访问。

2025-01-23 10:36:06 1715

原创 0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS

大模型推理引擎是生成式语言模型运转的发动机,是接受客户输入 prompt 和生成返回 response 的枢纽,也是拉起异构硬件,将物理电能转换为人类知识的变形金刚。大模型推理引擎的基本工作模式可以概括为,接收包括输入 prompt 和采样参数的并发请求,分词并且组装成 batch 输入给引擎,调度 GPU 执行前向推理,处理计算结果并转为词元返回给用户。和人类大脑处理语言的机制类似,大模型首先会把输入的 prompt 进行统一理解,形成具有记忆能力的上下文。这个阶段通常称为 Prefill 阶段。

2025-01-16 10:10:39 682

原创 百度视频搜索架构演进

视频搜索排序框架通过系统分层优化、Rankflow框架引入及弹性资源复用等架构演进,显著提升了排序系统的性能与灵活性,提高研发效率,降低了长期运营成本。在大模型技术趋势下,视频搜索系统如何更好提供RAG搜索增强功能。如何使视频与通搜端到端融合,达到搜索端到端理想态,都是我们后续探索研究的方向。推荐阅读网页结构建模在低质采集站上的识别应用如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构微服务架构革新:百度Jarvis2.0与云原生技术的力量技术路线速通!

2025-01-09 10:22:28 1570

原创 网页结构建模在低质采集站上的识别应用

本文首先讨论了恶劣采集作弊站点的识别难点,以及利用网页结构信息进行辅助识别的必要性。然后介绍了MarkupLM对于内容文本和页面排版的优势。最后介绍反作弊方向将MarkupLM建模方法应用于恶劣采集站上的识别,并通过实验展示XPath embedding结构对于识别作弊站的效果。除了应用在恶劣采集站的识别上,这样引入网页结构信息的建模方式还可以尝试扩展到其他的一些针对网页类型的作弊识别模型上,亦或是作为网页特征提取的基座对作弊页面实现多分类功能。参考文献cs.CL推荐阅读海量存储的批量计算框架。

2025-01-07 10:18:00 1019

原创 海量存储的批量计算框架

Neptune引擎主要支持四类操作:写、删、读、Scan。每一类操作都通过RegionMapper进行映射,对外隔离分区概念。Neptune存在两类分区:索引分区、数据分区。索引分区。索引分区用于减少因为数据分区导致Key所在数据分区不明确导致的随机访问IO放大问题,提升随机查性能。数据分区。Neptune可配置多个数据分区,每个数据分区内包含多个Locality-Group。分区间的数据理论上是互斥的。Neptune各类操作的流程:写操作:

2024-12-31 10:20:27 747

原创 网页多模态建模思考

本文从网页理解业务出发,从多模态信息融合,预训练任务构建角度,探讨通用网页建模方案。首先,指出网页的特殊性,即从不同观察视角下,网页存在富文本、树形结构,和图层堆叠三种形态。在此基础上,对比了多种多模态融合思路的优缺点,给出一种较好的方案。进一步,提出多粒度、多维度的网页预训练方案;最后,探索了大模型时代,利用现有多模态模型,低成本的适配到网页的一种可行思路。

2024-12-26 10:35:08 834

原创 百度垂搜一站式研发平台演进实践

业务加速创新,在需求越来越多、迭代越来越块、创新能力要求越来越高的背景下,如何通过技术手段为业务开发降本增效提质做出突破,是搜索架构、也是众多产品研发平台需要思考和解决的问题。经天一站式研发平台从业务场景和痛点出发,对复杂的后端系统深入开展了平台化探索和实践,据此形成一套从技术思路、到系统能力、再到业务运营可借鉴可复用的一站式平台解决方案,整个解决方案包含3个关键组成:基于FaaS机制,实现业务需求的快速迭代,帮助业务少写代码;

2024-12-24 10:32:40 771

原创 初探图谱Embedding用于异常检测(一)

在第一篇论文中,作者提出了一种基于One-Hot编码的图谱Embedding算法——GEE(Graph Encoder Embedding)。首先构造输入数据:a. E: 图谱的边集,是一个三元组的列表,每个元组的三个元素分别代表两个顶点的索引值,以及边的权重。b. Y: 图谱的顶点集,是一个整数列表,长度为N, 每个元素为相应顶点的标签,取值范围为[0, K], K为标签的类别数量。

2024-12-19 10:21:00 778

原创 AIAPI - 转向AI原生检索

2.1 AIAPI的设计要求AIAIP的设计要求是为了提供更好的检索效果用于模型生成,同时又兼顾资源,速度,效率等需求。要求从系统层面到数据效果层面均有比较大的提升。为了更好的拓展接口和能力,Aiapi设计了一整套标准协议,保证了接口的高可解释性、可扩展性,增强大模型对检索内容吸收理解能力;同时提供基于QueryPlan的多级Qos系统控制,在保障效果的同时追求成本控制的极限;数据上:优质:优质性包括了数据来源是权威的、可信的、优质的、实时的。在大模型场景下权威优质库带来的体验提升可能远大于全网库。

2024-12-17 10:49:11 664

原创 AI Agent重塑微服务治理

推荐阅读百度智能云千帆大模型平台引领企业创新增长轻松搞定平稳运行,数据库平台 DBStack 帮助 DBA 运维不同基础设施上的各类数据库基于PP-ShiTuv2新增PaddleX图像识别模型产线,显著提升商品识别等细粒度开放域产业场景检索性能基于GPU的ANN检索维度爆炸背景下uv计算在Feed业务的高效实践。

2024-12-05 13:05:51 710

原创 百度智能云千帆大模型平台引领企业创新增长

提供了最专业的应用开发工具、最丰富的大模型、最全面的工具链。千帆 ModelBuilder 提供的就是全流程的、模型训练和模型精调的工具链,包含:数据管理、训练模式、开发工具、评估优化、推理部署、大模型周边系统。除了智能体作为应用载体之外,还有非常多的企业级传统应用,过去是通过写代码的方式开发,今天我们通过大模型也实现了零代码分钟级开发,它就是 AI 速搭平台。今天我的发布到此结束,非常希望通过千帆平台,以及我们的一系列样板间,持续为大家提供最低门槛、最高效易用的大模型落地工具,加速企业落地的最后一公里。

2024-12-03 10:36:05 991

原创 基于PP-ShiTuv2新增PaddleX图像识别模型产线,显著提升商品识别等细粒度开放域产业场景检索性能

该系统从骨干网络选择和调整、损失函数的选择、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型裁剪量化多个方面,融合改进多种策略,对各个模块进行优化,最终在多个实际应用场景上的检索性能均有较好效果,且在处理商品等细粒度开放域场景时,PP-ShiTuV2相较于单一的开放域目标检测模型展现出明显优势。最后即可使用 **predict()**方法进行预测,对于预测结果支持 **print()**方法进行打印,以及 **save_to_img()**方法进行可视化并保存为图片。

2024-11-26 10:13:03 445

原创 基于GPU的ANN检索

假定一个库种承载的总流量为 x ,单个库层的总成本为 y,每个副本所使用的GPU总成本 p2 要高于使用CPU的总成本 p1,GPU方案和CPU方案下每个副本能承载的流量分别为 q2 和 q1,那么GPU方案单个库层的总成本为 y2 = ceil (x / q2) * p2,CPU方案单个库层的总成本为y1 = ceil (x / q1) * p1。根据近似思路的不同,ANN检索算法主要分为四类:基于树的ANN算法、基于LSH的ANN算法、基于量化的ANN算法和基于图的ANN算法。

2024-11-21 10:24:18 881

原创 维度爆炸背景下uv计算在Feed业务的高效实践

常见的基于数据膨胀的用户数计算方法,数据计算大小和过程数据传输量将随着维度的数量呈指数爆炸增长,维度数越多,花费在数据膨胀与Shuffle传输的资源和耗时占比越高。为了解决数据膨胀过程中产生的大量过程数据,基于数据标签的思路反向操作,先对数据聚合为cuid+日志维度粒度,过程中将需要的维度组合转化编码数字并赋予cuid数据上,整个计算过程数据呈收敛聚合状,数据计算过程较为稳定,数据条数、shuffle量不会随着维度组合的进一步增加而大幅增加。

2024-11-19 10:29:24 1012 1

原创 数据湖系列之四 | 数据湖存储加速方案的发展和对比分析

因此近年来,各大云服务商纷纷推出了自己的缓存加速产品,比如 AWS 的 FileCache、百度智能云的 RapidFS、阿里云的 JindoFS、腾讯云的 GooseFS 等,在 AI 和大数据的大部分场景下都能取得接近并行文件系统的加速效果。早期产品只提供了手动指定目录的数据加载和沉降方式,后来开始支持 Inventory 清单导入、周期性自动加载、增量同步、读时按需加载、自动淘汰等丰富功能,有的产品进一步将策略开放给业务定制,例如根据文件名后缀、大小、路径等规则实现更智能的数据流转。

2024-11-14 10:07:48 1086

原创 大模型时代,云原生数据底座的创新和实践

缓存数据库核心挑战还是在性能、成本、高可用方面,在过去一年里面,我们核心优化了这些方面,性能上支持批量加载,高用上支持异地多活的能力,成本上支持冷热分离,通过把相对较冷的数据自动迁移到 SSD 上显著降低成本。需要经过一系列加工,包括采集,清洗,转换,标注等等才能转换成大模型或者向量数据库可以处理的数据,从而支撑后面的各种业务。但是对用户来说,一个简单的,容易使用产品是刚需,所以整个业界的整体趋势都是往一体化方向发展,给用户提供完整的开发体验统一的数据湖管理、数据治理的能力。

2024-11-12 10:41:55 1056

原创 百度沧海·存储统一技术底座架构演进

随着 AI 时代的快速发展,对存储技术提出了更高的要求,尤其是在大规模、高性能和低成本方面。为了应对这些挑战,百度沧海·存储打造了一个高度可复用的统一技术底座。我们在这个统一的技术底座中解决了云存储的共性问题,让上层存储系统的迭代更高效。首先,我将简要介绍一下百度沧海·存储统一技术底座的整体架构。这个统一的技术底座由三个核心组件构成,分别是统一的元数据底座、统一的层级 Namespace 以及统一的数据底座。

2024-11-07 11:25:10 840

原创 计算不停歇,百度沧海数据湖存储加速方案 2.0 设计和实践

第二个是规模问题,单个 HDFS 集群的 Namenode 最高支持 10 亿量级的规模的文件数,现在大模型训练文件数最高会超过百亿,甚至千亿的文件规模, HDFS 集群很难满足,虽然有一些改进方案,如集群的 Federation 可以使支持的规模变得大一些,实际上会牺牲很多特性,带来使用上的不便。第一代的层级 Namespace 方案,是单机的方案,最典型的代表是 HDFS 的目录树全内存方案,这种方案性能高,但是扩展性差,只能在 10 亿的量级。在单机架构下还有一个问题待解决,就是如何提升系统的吞吐。

2024-11-05 10:07:32 879

原创 PaddleNLP上新!浪潮信息源2.0全面接入,大模型生态加速进化!

近日,源2.0开源大模型与百度 PaddleNLP 完成全面适配。用户通过 PaddleNLP,可快速调用源2.0预训练大模型,使用源2.0在语义、数学、推理、代码、知识等方面的推理能力,也可以使用特定领域的数据集对源2.0 进行微调,训练出适合自身业务需求的大模型。大语言模型的快速发展对训练和推理技术带来了更高的要求,企业在大模型开发过程往往面临多种难题:如何实现高效训练和推理,如何降低算力资源消耗,如何适配多种硬件……

2024-10-24 09:56:55 1045

原创 ClickHouse在百度MEG数据中台的落地和优化

为解决上述问题,我们构建了新一代大数据解决方案——“图灵3.0”,旨在覆盖数据全生命周期,支持全链路数据操作,提供高效敏捷且统一的强大数据生态系统,其中包括数据计算引擎、数据开发和数据分析三个核心部分:(1)TDE(Turing Data Engine):图灵生态的计算引擎,包括ClickHouse和Spark;(2)TDS(Turing Data Studio):一站式数据开发治理平台;(3)TDA(Turing Data Analysis):新一代可视化BI分析产品。△图灵3.0生态产品。

2024-10-22 10:06:48 1077

原创 用增结算数仓化改造:在/离线调度系统的构建与应用

用增结算类业务作为内部应用推广对外结算的唯一业务平台,对结算数据的准确性、一致性的要求非常高。针对平台离线计算历史架构中存在的系统性问题,根据当前业务特点进行分析、设计,进行了整体离线层数据架构的重构,保证结算数据的逻辑解耦、版本管理、准确性时效性提升、进度与异常及时感知、简化接入与降低运营成本。

2024-10-17 10:16:16 679

原创 百度视觉搜索架构演进实践

本文介绍了视觉搜索架构为了应对业务和技术发展带来的一系列挑战,从技术栈更新、架构能力升级、稳定性保障等方面入手,采取了全链路架构演进的技术应对方案。基于业务特点,结合百度内外的技术设施储备,我们采用Golang+GDP开发框架+ExGraph图化引擎重构了视觉展现架构,将其拆分为接入模块及展现模块,降低多端数据与业务逻辑耦合度;然后重新定义了视觉搜索架构分层及模块功能职责,并对展现模块及检索模块进行了数据协议统一、功能收敛内聚、逻辑分层改造工作;

2024-10-15 10:03:21 966

原创 HelixFold 3 全球首个完整复现 AlphaFold 3,百度智能云 CHPC 为人类生命探索提供算力平台支撑

2020 年 12 月,AlphaFold 2 发布。相较于之前实验成本高、耗时长、蛋白质结构解析困难的传统方法,AlphaFold 2 可以通过深度学习技术,仅需几小时就能准确地预测蛋白质的三维结构,极大地加速了生物医学研究的速度。众所周知,在包括人体在内的生物体当中,蛋白质并不是孤立运作的,蛋白质与各种其他分子的相互作用会贯穿不同的生物功能,这影响着研究生物和疾病的机理和通路、药物的研发等。但是,AlphaFold 2 无法预测蛋白质与其他类型分子的相互作用。

2024-10-08 16:50:59 1081

原创 百度搜索结果波动的极致治理

本文阐述了百度搜索系统针对diff率问题的创新解决方案,通过设计数据打平技术,将问题量化至服务与特征层面,实现精确贡献度的衡量。构建打平server支持数据订阅与发布,实现低代码实验配置,并利用fake流量与动态debug机制,在不影响用户体验的情况下进行大量实验与数据收集。采用多实验统筹与自动巡检机制,提高实验效率与分析自动化。最终,捕获所有对diff率有实质贡献的特征,分析根本原因,指导系统优化,显著降低结果的波动,节省人力与时间成本。值得注意的是,结果波动是分布式系统中普遍存在的问题。

2024-09-26 10:48:15 1040

转载 PaddleX图像分割赋能医疗领域筛查检测,打造智能医疗诊断系统

在医疗科技的前沿探索中,恶性皮肤肿瘤的早期识别与治疗显得至关重要。据2024年2月国家癌症中心发布的数据,中国恶性皮肤肿瘤的发病率已达2.4/10万,且每年新发病例约3.5万例[1]。尤其值得关注的是,晚期恶性皮肤肿瘤的生存率极低,例如黑色素瘤晚期的五年生存率仅4.6%,中位生存期不过1.42年,凸显了早期诊治的紧迫性[2]。然而,皮肤病变检测领域长期受专业门槛高、医疗资源分布不均的制约。

2024-09-23 19:33:29 203

原创 百度Android IM SDK组件能力建设及应用

即时通讯系统(Instant Messaging,简称IM系统)是一种允许用户通过互联网实时交换信息的通信技术。核心功能包括消息的发送与接收、用户状态的管理、消息、会话的存储与检索等。为了更好地满足用户更多场景诉求,IM系统还提供了如群组聊天、文件传输、语音和视频通话等功能。

2024-09-18 10:38:08 2040

转载 百度智能云向量数据库创新和应用实践分享

在大模型时代,数据库与大模型相互成就。我们也看到了很多新的趋势,从底层的 IaaS,模型会从云端扩展到端,PaaS 会从现在纯文本模型扩展到多模态,上层应用会从当前主流的 Copilot 扩展到 Agent,更充分利用大模型的自主决策能力。在向量检索这个场景中,存储的是非结构化数据,业务使用的越广泛,需要存储的数据就越多,因此在架构选型的时候,建议更早的预判到未来的业务增量,提前选择一个长期收益都很大的产品。我们会看到从客户场景角度,需要的是一个专业全面的能力的数据库,不是一个简单的插件可以完成的。

2024-09-12 10:06:09 383 1

原创 百度MEG数据开发治理平台-TDS

为实现这一目标,我们启动了第二阶段的开发,采用 Post-pretrain + SFT 对模型进行微调,结合BI分析工具的一些典型的打点日志,将用户查询的指标、维度、以及对应的筛选条件等整合后构建数据集在千帆平台进行大模型训练。模型提供的直观诊断报告,用通俗易懂的语言解释复杂的技术问题,大大降低了业务人员的学习及使用成本。TDS的数据任务涉及到众多业务线的基础数据产出,当这些任务出现异常时需要及时报警,TDS平台建立了一套完整的监控报警系统,当任务运行失败或出现异常时,进行及时的报警通告。

2024-09-10 10:47:42 1431

转载 键盘也能用上大模型?文心一言内置于罗技最新品

通过软硬件结合的立体式生态创新,罗技的用户现在可通过 Logi Options+自定义设置新品琥珀系列键盘上的快捷灵动键,更高效地调整他们的工作流程以满足特定需求,并使用/设定内置于 Logi Options+的 AI 相关功能,获得由百度文心一言提供的人工智能工具各类功能,例如文案创作、图像生成、学术论文辅助以及数据处理等。未来,为满足中国消费者的多样化需求,让用户可以根据自身喜好和应用场景,自由高效地选择 AI 服务,百度与罗技将继续携手并肩,共同探索人工智能技术应用的更多可能。

2024-09-05 10:16:14 260

原创 大模型在研发数据中台的应用实践

研发数据中台(性能中台)是一个专为APP性能追踪设计的一站式解决方案平台。通过先进的数据采集与监控技术,为APP提供实时、全链路的应用性能监控服务,助力APP提升线上问题排查与解决的效率。接入情况:覆盖了公司内部50多个APP、小程序、浏览器,以及外部收购的APP。服务规模:每日处理近千亿条研发数据,数据峰值达到30万QPS,核心业务端到端入库时间达到秒级别。业务可视化报表:针对通用化业务,提供例如问题概览、APP启动速度、用户分析等页面的可视化报表。业务宽表与数据集。

2024-09-03 10:36:57 1274

转载 飞桨框架3.0核心升级:动静统一自动并行,轻松开发大模型

框架的自动化流程主要有以下阶段:将用户标记的模型组网用分布式张量进行表示,然后进入切分推导流程为组网中的所有张量推导出一个合理高效的切分状态,接着框架的切分转换流程将为模型添加合适的通信算子 (详见下文2.2 章节),如果在静态图模式下还会基于静态图进行图优化提升训练性能 (详见下文4.1章节),最后用户可以保存或转换训练好的模型 checkpoint。例如,我们希望在6个计算设备上,创建一个形状为(4, 3)的分布式张量,其中沿着计算设备的 x 维,切分张量的0维;

2024-08-29 10:22:19 294

原创 百度搜索的RLHF性能优化实践

综上,我们在广泛实验、对比和学习了业界主流框架的情况下,通过分析RLHF任务的特点并采用先进的大模型预训练及推理性能优化手段,使得RLHF任务性能大幅提升,能够以相对少的资源支持了业务的快速迭代和发展,取得了良好的业务效果。

2024-08-27 11:59:38 1468 1

转载 基于飞桨框架实现PCA的人脸识别算法

主成分分析(PCA,Principal Component Analysis)是一项在高维数据中,寻找最重要特征的降维技术,大大减少数据的维度,而不显著损失信息量。本文将通过基于飞桨框架的实际代码示例,来展示所提供的高效、灵活的线性代数 API,如何简化机器学习和深度学习中的数据处理和分析工作,为高维数据集的处理和分析提供了有效工具。飞桨通过提供这些高效、灵活的线性代数 API,极大地简化了机器学习和深度学习中的数据处理和分析工作,为高维数据集的处理和分析提供了有效工具。

2024-08-22 15:17:07 97

原创 统一多场景自动编译加速——支持动态shape场景,一套架构搞定训推需求

通过飞桨神经网络编译器的自动优化,我们在生成式推理模型上相比基础版本,性能提升30%;在科学计算场景(Nvidia modulus)上, 基于飞桨提供的高阶自动微分及编译优化技术,对比 PyTorch 模型训练性能整体领先60%。

2024-08-20 10:07:48 1138

原创 基于飞桨框架的稀疏计算使用指南

本文将详细介绍如何在 PaddlePaddle 中利用稀疏计算应用稀疏 ResNet,涵盖稀疏数据格式的础知识、如何创建和操作稀疏张量,以及如何开发和训练稀疏神经网络模型。

2024-08-15 11:17:36 1079

原创 云高性能计算平台 CHPC 让企业的传统 HPC 玩出新花样

HPC 集群可以快速完成复杂计算,支撑模型仿真、数据分析等应用的高效运行,提高业务的创新速度,缩短产品上市时间。在很长的一段时间内,企业为了最大化提升市场竞争力,在传统的 HPC 集群上保持着不菲的资金投入,包括扩大集群规模、采购最新设备等方式。当前,如何在保障业务创新速度的同时,优化 HPC 集群的使用和运营方式以便减少资金投入,成为企业关注的重点。

2024-08-13 10:50:19 1224

原创 Embedding空间中的时序异常检测

在Embedding空间中实现高效的时序异常检测,通过向量化技术捕捉用户行为变化,有效应对复杂业务场景下的异常流量检测。

2024-08-08 10:17:55 744

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除