- 博客(773)
- 资源 (31)
- 收藏
- 关注
原创 2025:把“大模型”写进“数据闭环”——从自动驾驶到具身机器人,我如何用数据与算法做可落地的智能系统
2025年AI领域最显著的变化是从单一模型向可持续迭代的闭环系统转变。本文系统梳理了"数据→模型→行动→数据"的完整闭环链路,重点分析了四大关键层:数据底座(可追溯/可增量/可观测)、模型侧(本地推理可靠性)、自动驾驶(数据再生产)、具身智能(VLA可训练性)。作者通过实践总结出可落地的工程准则,包括数据湖布局策略、量化部署模板、Occupancy自动标注方案等,并将读者互动转化为闭环系统的需求输入端。文章强调真正的智能价值在于系统化的稳定生产能力,而非孤立模型效果。
2025-12-29 15:53:46
2573
4
原创 突破认知边界:大模型研究者思维工具箱
为什么顶尖AI研究者总能突破常规边界?,他们的秘密在于:在其他人停止思考的地方继续深入探索。他们不满足于表面的答案,而是尝试从新的角度理解问题,找到切实可行的方法。
2025-04-23 20:22:56
509
2
原创 架构师的六大生存法则与价值创造
架构师在软件架构设计中需遵循六大生存法则,确保方案与企业目标一致,尊重人性,最大化商业价值,考虑技术生命周期,注入外部适应性,并在文化环境中生存。这些法则帮助架构师在资源限制下,通过技术洞察和设计,实现商业模式的创新和效率提升,同时要求架构师具备良知和勇气,以全局和长期视角推动架构成功,为公司创造持续的商业价值。
2024-04-26 22:27:32
1649
2
原创 软考系统架构设计师实战论文集:自动驾驶与AI云端架构演进
《云端架构演进实录:自动驾驶数据闭环平台实践》摘要 本文系统梳理了自动驾驶云端数据平台的架构演进历程,围绕数据闭环核心,从四大维度展开: 1)基础设施层:通过云原生、服务网格等技术构建高可靠底座; 2)数据流转层:运用湖仓一体、Kappa架构处理PB级数据洪峰; 3)AI智能层:探索大模型在场景挖掘与标注中的前沿应用; 4)效能平台层:借助自动化测试与智能运维保障系统健康。全文通过14个专题,完整呈现了从传统单体架构到支持百万级车辆、日处理PB数据的云原生体系的升级路径,揭示了自动驾驶云端平台在可靠性、扩展
2026-05-21 21:59:31
371
原创 论云原生层次架构在自动驾驶云控平台中的应用
【摘要】2024年3月,作为核心架构师主导某新能源车企自动驾驶云控平台重构项目。针对50万辆在线车辆的海量数据处理需求,采用云原生层次架构解决三大核心问题:1)基础设施层通过Kubernetes+Ray框架实现异构算力秒级弹性调度,GPU利用率提升3倍;2)应用层引入ServiceMesh技术实现跨语言微服务治理,业务与通信层解耦;3)数据层构建PostgreSQL+数据湖+Elasticsearch多模态底座,支持PB级数据存储与毫秒级查询。平台于2024年10月上线后,核心响应时间稳定在50ms内,资源
2026-05-21 18:53:15
499
原创 一行 torch.add 究竟走过了什么路?——PyTorch 从 Python 到 CUDA 的完整调度链
本文深入剖析了PyTorch中torch.add(a,b)调用的完整执行路径,揭示了其核心调度机制。PyTorch通过七层抽象完成调用,关键组件是Dispatcher系统,它基于TensorImpl中的DispatchKeySet(64位掩码)动态决定算子执行路径。文章详细讲解了:1)PyTorch的三层架构(c10/ATen/torch);2)Tensor作为轻量级手柄的设计;3)Dispatcher如何通过聚合DispatchKey、查表、调用实现多后端调度;4)Autograd本质是高优先级Dispa
2026-05-17 11:41:40
569
原创 Gang Scheduling:让大规模分布式训练不再「半死不活」
本文探讨了Kubernetes默认调度器在处理分布式训练任务时面临的资源死锁问题,并介绍了两种解决方案:Volcano和Kueue。默认调度器的"per-pod"调度方式会导致资源碎片和双向死锁,而Gang Scheduling(成组调度)通过"all-or-nothing"机制确保任务要么全部调度成功,要么一个都不调度。Volcano作为HPC风格的调度器提供丰富的调度策略,而Kueue作为轻量级准入控制器与原生K8s生态更好兼容。文章还分享了生产落地需要考虑的优先
2026-05-17 10:19:34
498
原创 系统架构设计师常见高频考点总结之知识产权和标准化
本文摘要:文章系统梳理了知识产权保护与标准化的核心要点。在知识产权方面,详细阐述了著作权中人身权与财产权的保护期限差异,软件著作权归属规则,以及商标、专利的地域性特征。标准化部分解析了我国四级标准体系(国标、行标、地标、企标)的代号规则与适用范围,特别强调GB/T、DB等关键标识的识别技巧。针对考试备考,指出需重视历年真题中反复出现的"超纲"知识点,建议通过真题掌握教材外的扩展内容,如架构分类法等高频考点。全文为相关领域从业者及应试者提供了清晰的知识框架和实用的备考策略。
2026-05-12 05:00:00
391
原创 从 CUDA 基础到性能调优:为什么 GPU Util 100% 是个美丽的谎言
《GPU利用率100%的假象:深入理解CUDA性能瓶颈》摘要 nvidia-smi显示的100% GPU利用率具有极大误导性,它仅表示GPU处于工作状态,而非高效运行。本文揭示了7种常见性能陷阱:1)内存瓶颈导致计算单元闲置;2)细碎算子引发启动开销;3)TensorCore未激活;4)寄存器溢出;5)非连续内存访问;6)计算通信未重叠;7)推理批处理不足。通过工厂类比解析CUDA的两层体系:执行层级(线程-Warp-Block-Grid-SM)决定任务分配,内存层级(寄存器-共享内存-全局内存)影响数据供
2026-05-11 06:00:00
729
原创 训练 vs 推理:深度学习工程化中最容易被忽视的“两套世界观“
摘要:本文系统对比了深度学习训练与推理优化的核心差异。训练优化追求长周期吞吐和稳定性,关注GPU利用率、显存峰值和分布式通信效率;推理优化则聚焦低延迟、高并发和尾延迟治理,强调动态批处理、算子融合和量化技术。两者在评价指标、系统瓶颈和技术栈上存在根本性差异:训练工程师关注"填满流水线",而推理工程师专注"消除抖动"。理解这些差异对选择优化策略和框架至关重要,体现了深度学习工程化的两种不同思维范式。
2026-05-11 05:00:00
523
1
原创 深度学习性能调优全景指南:数据、计算、显存、通信四大瓶颈的破局之道
本文系统梳理了大规模深度学习训练中的四大性能瓶颈及其优化策略:数据瓶颈(GPU等待数据)可通过多进程加载、锁页内存、预取等技术优化;计算瓶颈(GPU利用率低)可通过混合精度、算子融合、JIT编译提升效率;显存瓶颈(OOM错误)可通过激活检查点、梯度累积、参数分片缓解;通信瓶颈(多卡扩展性差)可通过梯度分桶、计算通信重叠、RDMA加速优化。文章强调性能调优的核心在于先用Profiler准确定位瓶颈,再针对性地选择优化手段,形成"先诊断后开方"的方法论。这些工业界沉淀的优化技术构成了深度学习
2026-05-10 22:04:41
609
原创 大规模深度学习性能调优:自顶向下的五件套
摘要:本文介绍了深度学习性能调优的全栈工具链,从框架层到硬件层的五件套排查方案:1. PyTorch Profiler快速定位算子瓶颈;2. Nsight Systems分析系统级时间线;3. Nsight Compute深入Kernel微架构;4. NCCL_DEBUG排查分布式通信问题;5. nvidia-smi监控硬件状态。作者强调自顶向下的调优策略,指出不同层级工具的开销差异,并给出典型场景的排查流程。其中PyTorch Profiler+Nsight Systems可解决90%问题,Nsight
2026-05-10 21:19:41
913
原创 Flink 回撤流(Retract Stream)深度剖析:从底层原理到生产调优
本文深入解析Flink回撤流的核心概念与生产实践。回撤流通过-U撤回旧值和+U写入新值的方式实现流式计算的更新语义,是Flink动态表的关键机制。文章详细剖析了回撤流的产生场景(GROUP BY聚合、Regular JOIN等)、RowKind传递原理及状态存储机制,并针对生产环境四大核心问题(Sink兼容性、数据膨胀、状态无限增长、乱序问题)给出了解决方案。重点介绍了MiniBatch、LocalGlobal、State TTL等优化手段,以及如何通过窗口聚合、Lookup Join等方式避免回撤流。最后
2026-05-07 13:35:02
63
1
原创 生产环境踩坑记:如何优雅且安全地清理 Flink 过期 Checkpoint 目录?
本文深入剖析了Flink生产环境中状态管理的核心痛点,重点分析了RocksDB增量Checkpoint机制导致的跨作业文件依赖问题。作者通过真实故障案例,揭示了基于时间衰减的清理策略存在的致命缺陷:当旧作业Checkpoint被删除后,依赖其SSTable文件的新作业会因文件缺失而崩溃。文章提出了基于元数据可达性分析的闭环清理方案,通过解析_metadata文件构建依赖树白名单,实现了安全精准的文件清理。这一方案既保证了任务快速恢复能力,又有效控制了HDFS存储空间,为Flink大状态任务的长期稳定运行提供
2026-05-07 12:39:46
51
原创 论事件驱动架构在自动驾驶数据闭环平台中的应用
【摘要】本文以2024年某新能源车企"自动驾驶数据闭环平台"重构项目为例,阐述了事件驱动架构(EDA)的设计与实践。针对传统同步架构在高并发场景下的性能瓶颈,项目采用Kafka作为全局事件总线,提出三大核心解决方案:1) 基于本地消息表的发件箱模式确保业务数据与事件一致性;2) 版本号控制的全局状态机与乐观锁机制保障流程有序推进;3) 双重幂等防护与死信队列实现异常容错。重构后系统处理效率提升30%,成功应对PB级数据并发,为自动驾驶算法迭代提供了可靠的数据支撑。
2026-05-06 13:14:18
457
原创 从 CUDA Kernel 到 TensorRT Plugin:一条 AI Infra 工程师的最小可复现路径
摘要:本文针对希望从PyTorch调参进阶到编写CUDA算子和部署模型的工程师,提供了一条基于RTX4090D显卡的完整实践路径。文章首先构建CUDA编程的核心心智模型,强调GPU作为吞吐优化设备的特性,并通过向量加法示例展示CUDA程序的完整生命周期。随后对比Triton、PyTorch扩展和纯NVCC三种工程化路径的适用场景,推荐Triton作为大多数场景的起点。核心部分以Swin-Tiny模型中的LayerNorm子图为例,详细拆解从ONNX自定义算子导出到TensorRT插件开发的完整流程,包括符号
2026-05-04 15:49:11
711
原创 你以为你在训练大模型,其实你在烧钱打水漂——分布式训练的四个致命陷阱
H100 一张卡的售价能买一辆轿车,一个千卡集群的电费一天就够普通人吃几年。可即便砸下这么多钱,绝大多数团队真正用上的算力,可能还不到硬件理论巅峰的30%。程序还在跑,损失还在降,监控里 GPU 利用率显示 100%——所有指标都告诉你一切正常,但你其实是在原地烧钱。这篇博客把分布式训练里最常见、也最隐蔽的四个坑摊开来讲清楚。每一个我都会用两层语言来解释:先是工程师视角的硬核原理,再用一个生活化的比喻让它"秒懂"。如果你正在搭训练流水线,这篇文章可能值你几千美金的电费。分布式训练四大坑。
2026-05-04 12:49:31
675
原创 PostgreSQL 和 MySQL 的 MVCC 到底有什么区别?从底层存储机制讲透
PostgreSQL和MySQL的MVCC实现差异主要体现在版本存储方式上:PostgreSQL采用"表内版本堆"模式,所有版本都存储在表文件中,通过xmin/xmax判断可见性,更新操作会追加新版本并标记旧版本过期,这种设计使得回滚快速但容易导致表膨胀;MySQL InnoDB则采用"主表+Undo日志"模式,当前版本存储在聚簇索引中,历史版本保存在Undo日志里,通过事务ID和回滚指针构建版本链,这种设计避免了表膨胀但可能造成Undo日志堆积。两种实现各有利弊:P
2026-04-29 09:34:08
421
原创 自动驾驶数据闭环中,Video Clip 的多模态特征到底怎么提取?
自动驾驶数据闭环中的Clip特征提取,本质是构建多模态数据的索引系统。一个Clip并非单一视频,而是包含摄像头、LiDAR、GPS等多元信息的综合数据包。特征提取流程需先对齐时间窗口,再分别提取语义、运动、环境等特征。关键环节包括:关键帧抽取、天气识别、轨迹编码、点云分析等。工程落地需注意时间同步、模型选型和版本管理,最终形成结构化标签+向量索引的数据资产。这种处理方式将海量路测数据转化为可检索、可训练的高价值资源,为自动驾驶模型迭代提供燃料。
2026-04-29 09:33:47
805
原创 撕开 CPython 的底裤:从巨大的 Switch/Case 到协程调度,一文彻底搞懂 Python 运行机制
本文深入剖析了CPython虚拟机的运行机制,揭示了Python作为解释型语言的本质。通过分析CPython源码中的_PyEval_EvalFrameDefault函数,展示了Python字节码是如何通过一个巨大的switch-case结构调用预编译的C函数实现的。文章指出Python运行缓慢的两大主因:字节码分发开销和动态类型检查成本。随后对比了进程、线程和协程三种并发模型的底层原理及适用场景:进程实现真正并行但开销大,线程受GIL限制,协程适合I/O密集型但需避免阻塞。最后强调理解这些底层机制对优化Py
2026-04-28 17:56:18
497
原创 C++、Java、Go、Python 到底有什么区别?从运行机制到工程场景一次讲清楚
本文对比分析了C++、Java、Go和Python四种编程语言的核心特性。从运行机制看,C++和Go编译为机器码,Java和Python通过虚拟机/解释器执行;类型系统方面,C++、Java、Go为静态类型,Python为动态类型;内存管理上,C++手动控制,其他三者为自动管理;并发模型差异显著,C++最灵活但复杂,Go的goroutine最具特色。性能方面,C++最优,Java长期运行表现佳,Go适合网络服务,Python依赖底层库加速。工程生态上,四门语言各有所长:C++适合底层系统,Java擅长企业应
2026-04-28 17:14:52
434
1
原创 一次大数据平台面试被 K8S 追问打穿后,我把这些知识盲点补齐了
【大数据开发面试中的K8S核心知识点】面试发现大数据开发岗位对Kubernetes的要求显著提升。关键要点包括:1)资源调度层面,需区分Spark动态扩Executor与K8S集群扩Node的逻辑差异;2)服务暴露方式要明确ClusterIP/NodePort/LoadBalancer的区别;3)掌握Prometheus四类核心指标;4)理解节点调度策略;5)OOM排查需区分RSS/WSS/container_memory_usage等内存指标。数据平台开发需要建立完整的资源模型认知,包括工作负载扩缩容
2026-04-27 18:31:55
215
原创 你的 GPU 为什么只能跑 20%?大模型训练通信瓶颈的四层排查 SOP
《大模型训练通信瓶颈排查指南》摘要:本文针对分布式训练中通信瓶颈问题,提出一套自底向上的排查SOP。首先通过nccl-tests测试物理网络带宽,确保RDMA正常;其次用NCCL_DEBUG检查通信路径;再通过Prometheus+Grafana监控和Profiler分析定位代码层问题;最后调整BucketSize优化通信效率。文章强调通信优化需要系统性地逐层排查,从物理层到应用层缺一不可,才能将集群性能从15%提升到理想水平。作者分享了实战中积累的关键指标解读和调优技巧,帮助工程师快速定位通信瓶颈。
2026-04-18 08:58:24
456
1
原创 国产算力真能替代 A100 吗?聊聊我在做国产 GPU 评测时的三层方法论
国产GPU替代英伟达面临"纸面参数强,真实业务弱"的尴尬现状。文章提出"三层Benchmark体系"评测方法:1)MicroBenchmark检测硬件极限性能;2)MacroBenchmark评估框架适配与算子支持;3)End-to-EndBenchmark验证业务场景下的稳定性与效率。评测重点不在跑分,而在发现硬件在真实业务中的瓶颈与风险,为商业决策提供依据。作者强调,国产算力替代需要同时考量硬件性能、框架适配和业务需求三个维度,通过系统性评测加速生态成熟。
2026-04-18 08:42:20
739
原创 独家揭秘:自动驾驶 3D Occupancy 真值自动标注系统架构与“踩坑”实录
《自动驾驶3D占据网络真值生成的技术挑战与演进方向》摘要: 当前自动驾驶感知技术正从2D向3D占据网络(Occupancy Network)快速演进。本文深入探讨了3D占据网络真值生成的核心挑战与技术方案:1)开源方案存在传感器依赖、点云稀疏性等局限;2)提出自研Pipeline实现动静分离与多帧聚合,采用SphereFormer提升点云分割效率;3)针对收费站抬杆等长尾场景提出专项优化方案;4)分析量产化面临的算力瓶颈与误差传导问题。展望未来,真值生成将向语义驱动、多模态融合方向发展,结合生成式AI实现效
2026-04-15 18:48:28
503
原创 系统架构设计师常见高频考点总结之案例题
本文对比分析了三种软件架构设计的关键技术:1. 仓库风格与管道-过滤器风格在IDE场景的应用对比,指出数据仓储风格更适合IDE的交互式开发、插件扩展和复杂数据管理需求。2. 解释器架构与面向对象架构的优劣比较,解释器在灵活性和个性化方面占优,而面向对象在性能上表现更好。3. Redis缓存技术的核心要点,包括缓存策略、内存淘汰机制、数据类型应用、持久化方案及分布式存储方式,并与MemCache进行了特性对比。全文通过结构化对比维度,提炼出各技术的核心特征和应用场景。
2026-04-08 13:54:02
722
1
原创 系统架构设计师常见高频考点总结之运筹学
本文介绍了软件工程项目管理中PERT三点估算法和关键路径法的应用。首先通过PERT公式计算作业C的期望完成时间为13天,然后分析项目路径确定关键路径为27天,并得出作业C的总时差为2天。第二部分通过贪心算法优化项目成本,逐步压缩关键路径上的任务,最终将项目工期从12天压缩到7天,总成本从115万降至106万。关键技巧包括:使用(o+4m+p)/6计算期望时间,通过关键路径与非关键路径的差值确定时差,在多条关键路径出现时需要同时压缩任务才能有效缩短工期。
2026-03-31 18:12:18
477
1
原创 系统架构设计师常见高频考点总结之信息化基础与系统规划、项目管理
摘要:本文系统梳理了企业信息化管理的核心知识点,包括MIS规划三大方法(CSF、SST、BSP)、信息化需求三层次(战略/运作/技术)、ERP与CRM的区别、商业智能技术(数据仓库/OLAP/数据挖掘)等。同时详解了项目管理中的范围定义输入要素(项目章程、范围管理计划等)、时间管理六大过程、配置管理要点(配置项分类与状态)以及标准变更控制流程(问题分析→变更评估→实现)。重点强调了企业数字化转型五个阶段和ERP计划层次划分,为信息系统项目管理提供了完整的理论框架。
2026-03-31 18:11:31
603
2
原创 系统架构师英语考题必看:为什么你单词都认识,却总是选错?(附备考策略)
软考系统架构师考试中的专业英语填空题本质并非测试语言能力,而是考察计算机专业术语的准确理解。考生常因直译或混淆概念而失分,需建立"关键词-术语"的条件反射(如"指针关联记录"对应"网状数据库")。备考应聚焦高频专有名词,通过盲猜中文概念再匹配英文选项的方式训练,同时夯实专业理论基础。这5分实为专业素养的考察,掌握术语映射即可轻松拿下。
2026-03-29 08:42:36
780
1
原创 论大模型应用架构(RAG/Agent)的设计与应用——以自动驾驶数据闭环平台为例
本文介绍了2025年某新能源车企自动驾驶数据闭环平台的重构实践。通过RAG技术实现多模态数据检索,解决长尾场景挖掘难题;采用Agent集群自动化标注流水线,降低80%人工成本;利用vLLM框架优化大模型推理性能,实现毫秒级处理。该平台使CornerCase挖掘效率提升5倍,显著加速算法迭代,展示了AI技术在自动驾驶数据闭环中的关键作用。
2026-03-07 16:48:48
1034
1
原创 论大数据 Kappa 架构的设计与应用
本文介绍了基于Flink+Kafka的Kappa架构在新能源车企自动驾驶云控平台中的应用实践。针对原有Lambda架构存在的开发维护成本高、数据不一致等问题,项目采用Kappa架构实现流批一体化,通过FlinkSQL统一计算逻辑、Kafka分层存储构建无限数据流,并利用数据重放机制实现历史数据回溯。该方案使平台代码量减少50%,数据处理延迟降至秒级,有效解决了数据一致性问题,为实时性要求高且逻辑迭代频繁的场景提供了优化方案。
2026-03-05 13:52:58
738
3
原创 论云原生架构下的可靠性设计——以自动驾驶云控数据平台为例
本文以某新能源车企自动驾驶云平台重构项目为例,阐述了云原生架构下的可靠性设计方案。针对50万辆在线车辆并发连接、数据丢失及任务积压等问题,项目采用Kubernetes云原生架构,通过三层设计实现系统高可靠:基础设施层利用Kubernetes自愈能力和KEDA事件驱动弹性伸缩应对高并发;应用层通过Sentinel实现核心链路熔断降级;验证层采用ChaosMesh进行混沌测试。最终平台日均处理10PB数据,核心服务可用性达99.99%,成功支撑大规模OTA升级。文章强调在自动驾驶领域需秉持"面向失败设
2026-03-05 13:32:35
625
2
原创 论服务网格(Service Mesh)的应用
本文介绍了2024年3月在自动驾驶数据闭环平台架构重构中采用Istio服务网格的实践经验。该项目针对SpringCloud在多语言服务治理中的局限性,通过引入Istio服务网格,将流量治理、可观测性和安全能力下沉到基础设施层。主要创新点包括:1)采用Envoy Sidecar实现跨语言统一治理;2)构建基于TraceID的全链路观测体系;3)分阶段实施mTLS安全策略;4)设计"先观察后管控"的渐进式迁移方案。实施效果显示,核心服务故障定位时间缩短60%,跨语言服务接入效率提升50%,同
2026-03-03 14:33:32
1367
2
原创 论分布式缓存技术在车联网数据平台中的应用
本文介绍了2024年某新能源车企车联网数据监控平台的架构优化实践。针对原有系统在高并发场景下的性能瓶颈,采用多级缓存架构(Memcache+Redis)解决热点访问问题,通过Redisson分布式锁防止缓存击穿,并利用Canal+RocketMQ实现数据最终一致性。优化后系统核心接口响应时间降至10ms以内,数据库负载降低70%,有效支撑了百万级车辆的实时数据交互需求。该方案为高并发场景下的分布式系统设计提供了有价值的参考。
2026-03-03 11:13:40
941
原创 论自动化测试技术在大型仿真平台中的应用
摘要:本文介绍了一套面向自动驾驶仿真测试平台的分层自动化测试体系。针对微服务架构下接口数量激增、UI频繁变更等痛点,设计了接口层(采用Python+Pytest+Allure实现数据驱动测试)、UI层(基于POM模式与无头浏览器集群)和AI增强层(实现脚本自愈与智能断言)的三维解决方案。通过Trace-ID全链路追踪、AI视觉元素定位等创新技术,将回归测试时间从3人天缩短至2小时,自动化覆盖率达92%。实践表明,该体系有效解决了传统测试在微服务场景下的效率瓶颈,为自动驾驶系统的高质量交付提供了保障。
2026-02-28 20:20:19
934
原创 论AIOps(智能运维)在大型分布式系统中的应用
【摘要】2024年,作者作为核心架构师主导了某大型分布式服务平台的AIOps智能化改造。面对日均千万级请求和PB级数据处理压力,传统运维手段已无法应对告警风暴、故障定位困难等挑战。项目通过构建统一观测数据湖,引入时间序列异常检测、知识图谱根因分析等AI算法,实现了智能告警降噪、精准异常检测和快速故障定位。改造后系统告警准确率提升80%,平均故障恢复时间缩短30%,有效保障了99.99%的高可用性。本文详细阐述了AIOps的三层架构设计,重点分析了无监督学习异常检测、告警聚类关联分析等关键技术应用,为大规模分
2026-02-28 19:57:01
795
原创 论系统安全架构设计及其应用(基于AI大模型项目)
摘要:本文分享了某大型科技公司"企业级AIGC能力中台"的安全架构设计经验。作为系统架构师,我主导设计了基于零信任理念的安全体系,重点解决API密钥泄露、数据越权访问等核心问题。针对传统静态APIKey管理混乱问题,采用OAuth2.0动态令牌机制;针对RAG场景的数据越权,创新性地将权限控制下沉到向量检索阶段,通过元数据注入和预计算过滤实现细粒度控制。项目最终建成日均2000万次调用的安全中台,为AI时代的企业级应用安全提供了实践参考。
2026-02-05 20:38:38
930
原创 论湖仓一体架构及其应用
我所在的半导体企业随着产能扩张,数据管理面临严峻挑战。作为架构师,我经过调研发现,原有的烟囱式架构存在三大痛点:一是数据异构严重,MES的结构化数据、FDC的毫秒级时序数据及量测设备的半结构化文件分散在不同系统;因此,我决定采用“湖仓一体(Lakehouse)”架构,旨在构建一个既拥有数据湖的灵活性与低成本,又具备数据仓库的管理能力与高性能的新一代数据平台。同时,配置脏数据收集器(Dirty Data Collector),将清洗失败的数据分流至异常区,确保进入“湖仓”的数据必须符合开放标准格式的要求。
2026-02-03 21:19:29
895
原创 论边云协同架构在自动驾驶系统中的应用
平台上线后,支撑50辆测试车开展城市开放道路测试,累计里程超过10万公里。通过边云协同,项目取得三方面效果。第一,数据成本明显下降。通过事件触发、环形缓存、摘要化和优先级上传,单车日均有效回传数据控制在50GB量级,带宽和云存储压力显著降低。第二,模型迭代效率提升。高价值事件数据可以更快进入样本池,典型长尾场景的模型修复周期由两周缩短至三天左右。第三,车队运维能力增强。边缘应用实现统一部署、灰度发布、状态监控和快速回滚,减少了人工排查和手工升级。
2026-02-03 19:15:31
1348
1
扩散模型如何在智能交通(自动驾驶、交通仿真、轨迹预测等)领域发挥作用
2025-01-18
一个在有序行和列的矩阵中选择第k小元素的O(n)时间复杂度算法
2024-01-01
bitnami/zookeeper 3.6 docker镜像
2025-12-17
RT-2:Google DeepMind的机器人革命-如何让AI从网页知识中学会操控现实世界
2025-11-23
2025年ASR技术前沿:从端到端模型专利到AI语音就业机会,全方位解析自动语音识别的未来
2025-11-06
Chain-of-Verification (CoVe):让大模型“自我审校”的技术如何落地?
2025-03-19
基于对抗学习的多级交互融合网络用于高光谱和LiDAR数据融合分类
2025-02-17
基于李宏毅老师深度强化学习蘑菇书EasyRL
2025-02-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅