数据与算法架构提升之路-CSDN博客

原创 2025：把“大模型”写进“数据闭环”——从自动驾驶到具身机器人，我如何用数据与算法做可落地的智能系统

2025年AI领域最显著的变化是从单一模型向可持续迭代的闭环系统转变。本文系统梳理了"数据→模型→行动→数据"的完整闭环链路，重点分析了四大关键层：数据底座（可追溯/可增量/可观测）、模型侧（本地推理可靠性）、自动驾驶（数据再生产）、具身智能（VLA可训练性）。作者通过实践总结出可落地的工程准则，包括数据湖布局策略、量化部署模板、Occupancy自动标注方案等，并将读者互动转化为闭环系统的需求输入端。文章强调真正的智能价值在于系统化的稳定生产能力，而非孤立模型效果。

2025-12-29 15:53:46 2849 4

原创突破认知边界：大模型研究者思维工具箱

为什么顶尖AI研究者总能突破常规边界？，他们的秘密在于：在其他人停止思考的地方继续深入探索。他们不满足于表面的答案，而是尝试从新的角度理解问题，找到切实可行的方法。

2025-04-23 20:22:56 533 2

原创架构师的六大生存法则与价值创造

架构师在软件架构设计中需遵循六大生存法则，确保方案与企业目标一致，尊重人性，最大化商业价值，考虑技术生命周期，注入外部适应性，并在文化环境中生存。这些法则帮助架构师在资源限制下，通过技术洞察和设计，实现商业模式的创新和效率提升，同时要求架构师具备良知和勇气，以全局和长期视角推动架构成功，为公司创造持续的商业价值。

2024-04-26 22:27:32 1738 2

原创《精力管理》阅读笔记

精力就是做事情的能力。包括体能、情感、思维、意志四个方面

2023-01-19 17:30:19 2489 3

原创为什么 tosutil 比 cp 快一个数量级?——TB 级数据传输背后的工程原理

摘要：本文对比了挂载盘直接cp与tosutil工具在AI训练场景中的性能差异。挂载盘通过FUSE层转换导致单流串行传输、无容错机制，而tosutil通过API直连、分片并发、连接复用和断点续传四大核心机制，显著提升TB级数据及海量小文件的传输效率。建议日常小文件使用挂载盘，大规模数据传输优先选用tosutil以获得数量级的速度提升。

2026-07-06 17:51:31 324

原创软考系统架构设计师考试复盘：6个月间歇性刷真题 + 考前1个月高强度二刷，一次性通过

综合知识（上午场）不再仅仅停留在架构概念的表面。官方正在通过极其底层的技术细节（如操作系统硬件中断的边界界定、网络协议栈的底层机制、信息安全核心算法等）来过滤掉技术底盘不扎实的考生。这些“死知识”往往是容易被日常高层业务开发所忽略的盲区。无论是案例分析还是综合知识，题目背景都在快速剥离传统的单体应用或简单信息化系统，全面拥抱高复杂度的现代技术栈。云原生架构治理、大数据处理管道、高并发分布式中间件，甚至是AI基础设施和边缘计算，已经成为考卷上的常客。

2026-06-30 16:05:36 660

原创异构GPU推理调度落地方案

本文提出了一种异构GPU推理调度落地方案，采用"软件定义路由，硬件物理隔离"的核心原则。方案通过K8s将不同GPU类型（如H200、国产卡、T4）划分到物理隔离的资源池，避免驱动冲突。模型注册表维护模型与硬件池的映射关系，智能网关基于语义路由、容量检查和负载均衡策略分发请求。系统通过实时监控GPU显存水位、队列深度等指标形成闭环反馈，动态调整流量分配。该方案实现了异构GPU的高效利用，同时保障关键模型的SLA，避免OOM等故障。

2026-06-30 14:10:04 335

原创搭建千卡 GPU 算力调度平台：一套完整的 AI 智算中心知识体系

摘要：本文以构建高效AI算力调度平台为主线，系统梳理了K8s调度、GPU切分、RDMA、大模型并行等关键技术如何协同解决业务痛点。平台需实现三大目标：1）通过DevicePlugin、HAMi、MIG等技术细粒度切分GPU资源，提升利用率至80%以上；2）利用RDMA、NVLink、RingAllReduce等优化跨卡通信，突破"通信墙"；3）基于Operator模式构建集群大脑，实现Gang调度与资源隔离。文章将技术栈分为算力切分、跨卡通信、集群管理、调度器底盘四层，强调从源码层面理

2026-06-14 19:49:23 582

原创母牛繁殖问题与矩阵快速幂

《从递推到矩阵快速幂：破解母牛问题的高效解法》摘要：本文探讨了农场母牛数量增长问题的优化解法。通过分析递推关系f(n)=f(n-1)+f(n-3)，揭示了传统动态规划在N≤10^18时的时间复杂度陷阱（需运行31年）。提出了基于矩阵快速幂的O(logN)解法，将递推转化为矩阵乘法并用快速幂加速。文中提供了可直接AC的Java代码实现（使用BufferedReader优化输入），并详细列出了7个关键避坑点，包括取模处理、long类型使用、边界条件特判等。特别指出数据范围10^18是出题人暗示使用矩阵快速幂的重

2026-06-14 19:02:35 378

原创 NVIDIA Triton Inference Server 高并发部署的四大核心战役

是 Queue 耗时高，还是 Compute 耗时高？如果Queue Time极高，说明请求全堵在前端，此时应立刻增加的数量。如果极高，说明算力到瓶颈了。抓一段 GPU 的真实 Timeline。看 CUDA Kernel 之间是不是塞满了气泡？看是不是 Memory Bound（被显存带宽卡死）？如果是，考虑引入 FP16 / INT8 量化（牺牲一点尾部精度换取算力翻倍）。如果请求量瞬间达到设计的 3 倍，什么优化都救不回来。

2026-06-08 15:45:00 782

原创把大模型送上生产线：MLOps 六场硬仗实战手记

《大模型MLOps实战：从代码到上线的六场硬仗》本文聚焦大模型生产部署中的核心挑战，通过实战经验揭示MLOps与传统软件工程的本质差异。关键在于处理"流量的不可预测性"与"硬件物理极限"的冲突。文中系统梳理了六大关键战役：环境一致性：必须分离训练与推理镜像，通过ONNX转换、多阶段构建将镜像从10GB压缩到1GB以下版本控制：采用Git+DVC/MLflow构建完整血缘追踪，实现100%实验复现能力质量保障：建立错题本测试、分级评测机制，平衡速度与覆盖率安全

2026-06-08 07:00:00 827

原创你的 GPU 在偷偷摸鱼——聊聊梯度压缩与异步训练

本文探讨了分布式大模型训练中的通信瓶颈问题，提出梯度压缩和异步更新的组合优化方案。通过Top-k梯度稀疏化（保留1%-5%的重要梯度）、INT8量化和误差补偿技术，将通信量缩减至原始数据的0.25%。结合SSP异步协议（允许有限步长差异）实现集群利用率超90%，既避免同步等待又防止梯度过期。文章强调工程实现中的关键细节：Warm-up阶段、动量计算位置和自适应阈值策略，最终达成通信量减少95%且不影响模型精度的优化效果，揭示了分布式训练中"足够好的信息快速传递"的核心思想。

2026-06-07 13:51:49 381

原创 INT8 量化之后，推理反而慢了一半：一次 Jetson Orin Nano 端侧部署的完整复盘

本文详细记录了在资源受限的Jetson Orin Nano Super开发套件上部署ResNet18模型的完整技术路径。通过FP16基线测试、知识蒸馏、结构化剪枝、QAT显式量化和DLA探测五个阶段，作者揭示了模型优化过程中容易被忽视的关键问题：INT8量化后因CPU调度开销导致吞吐量意外下降50%，通过CUDAGraph静态化调度实现1664FPS的反超；指出PyTorch剪枝接口仅作数值置零的"假剪枝"现象；并发现该硬件平台实际缺失DLA核心的真相。实验提炼出六条核心经验，强调优化必

2026-06-07 12:50:29 550

原创显存都去哪了：从 FP32 Master Weight 讲透大模型训练的显存账本

这篇文章深入解析了大模型训练中显存占用的核心问题，重点阐述了FP32 Master Weight的作用和取舍。通过记账的比喻，作者形象地解释了混合精度训练的本质：用低精度（FP16/BF16）进行高效计算，同时保留高精度（FP32）主权重确保数值稳定性。文章详细对比了FP16和BF16的差异，指出BF16凭借更大的数值范围更适合深度学习训练。在显存估算方面，作者给出了具体计算公式：10B参数的模型，保留FP32 Master Weight约需160GB显存，不保留则约120GB。最后，文章讨论了实际训练中的

2026-06-02 14:10:16 487

原创吃透 CUDA 共享内存：从分块矩阵乘法到矩阵转置

这篇文章是一份关于GPU编程优化的实战笔记，重点讲解了两个"Easy"但性能敏感的问题：分块矩阵乘法和矩阵转置。文章通过分析朴素写法的性能瓶颈，深入讲解了GPU执行模型和内存优化策略。对于矩阵乘法，作者指出全局显存访问的带宽浪费问题，提出了分块（Tiling）优化方案：利用共享内存缓存数据块，减少全局内存访问。关键点包括：维度命名确认、线程网格划分、坐标计算和边界处理。对于矩阵转置，作者分析了跨步访问导致的内存合并失效问题，提出了通过共享内存中转的解决方案，特别介绍了"+1

2026-05-31 19:44:29 469

原创 GEMM 后端选型：从底层概念到工程决策——cuBLASLt 与 CUTLASS 的取舍

本文深入探讨了GPU矩阵乘法（GEMM）优化的技术选型框架，系统分析了从黑盒调库到白盒手写的完整技术光谱。文章首先构建了GPU计算的基础概念体系，包括内存层级、TensorCore指令演进、混合精度和算子融合等核心原理。然后详细剖析了cuBLASLt、CUTLASS和CuTe等关键技术的设计哲学与实现机制，特别拆解了CuTe的Layout代数系统如何实现高效数据搬运和计算调度。通过FlashRT推理引擎的真实案例，展示了如何根据硬件代次、矩阵形状和精度需求进行动态选型。最后提出了一套可执行的决策框架，强调性

2026-05-30 19:34:11 563

原创算力拉满，GPU 却在摸鱼：深度学习里的访存瓶颈

本文揭示了性能优化中的核心问题：瓶颈往往不在算力，而在数据搬运。通过两个典型案例（LayerNorm精度转换无效和GPU利用率低下）分析，指出优化前需先用Roofline模型区分算力受限（Compute-bound）和带宽受限（Memory-bound）场景。对于带宽受限算子（如LayerNorm），优化重点应是减少数据搬运量，可采用FP16存储或算子融合；对于CPU-GPU传输瓶颈，关键要确保使用pinned memory使non_blocking真正生效。文章强调性能优化必须准确定位瓶颈：算力不足应提

2026-05-30 17:43:21 388

原创视频抽帧到底慢在哪？ffmpeg、pipe 与 decord 的底层原理拆解

本文深入探讨了视频处理中抽帧这一关键环节的三种优化方案。首先指出原生OpenCV方案存在全解码和Python层数据拷贝两大性能瓶颈，随后详细对比了三种优化方案：A方案（ffmpeg直接抽帧）适合离线批处理，但存在编码和磁盘IO开销；B方案（ffmpeg管道）省去磁盘IO，但只能顺序读取；C方案（decord）通过关键帧索引实现O(1)随机访问，支持GPU加速，特别适合训练推理和多模态场景。文章重点剖析了各方案的底层原理，包括关键帧索引机制、NVDEC硬件加速优势，以及如何减少数据拷贝次数。最后强调选择方案时

2026-05-29 11:33:44 704

原创 RAG 实战指南：深入浅出向量数据库 Milvus

本文系统介绍了开源分布式向量数据库Milvus的核心架构与索引选型。Milvus采用分层解耦设计，包含Proxy接入层、Coordinator协调层、Workers执行层和DurableStorage存储层，支持弹性扩展。重点解析了FLAT、IVF_FLAT、IVF_SQ8、HNSW、SCANN和DISKANN六种索引类型的特点及适用场景，并对比了L2、IP和COSINE三种相似度量方式。作为RAG方案的核心组件，Milvus凭借高性能检索、多索引支持和云原生架构，成为处理大规模向量数据的理想选择。

2026-05-25 19:10:19 499

原创 Spark vs Ray/Daft：ETL 与特征工程的框架选型之道

摘要：传统ETL框架如Spark擅长Shuffle密集型操作（Join/GroupBy），但在特征工程场景中面临内存爆炸、GPU利用率低等问题。特征工程80%是Local计算（图像解码、模型推理），需要Ray/Daft等新框架实现模型复用、细粒度GPU调度。核心差异在于：Spark围绕数据聚合优化，Ray/Daft围绕GPU计算优化。最佳实践是混合架构——Spark处理ETL和聚合，Ray/Daft处理Embedding生成，通过Parquet实现数据流转。这反映了数据基础设施从"以存储为中心&q

2026-05-25 18:59:00 341

原创数据不是石油，是稀土：被误读的具身智能数据竞赛

摘要：具身智能面临数据困境，当前行业投入大量资金采集的数据存在质量差、利用率低等问题。研究揭示了四种数据范式：网络视频缺乏动作标注，遥操作精度高但成本昂贵，仿真数据存在真实差距，第一视角数据兼具规模与精度优势。NVIDIA提出的"数据金字塔"框架表明，未来需要整合多种数据源形成互补生态。真正的价值不在于数据规模，而在于从海量数据中提取有效信息的"提纯能力"。这标志着具身智能数据采集从单一范式向多元化协同的转变。

2026-05-24 15:41:14 454

原创软考系统架构设计师实战论文集：自动驾驶与AI云端架构演进

《云端架构演进实录：自动驾驶数据闭环平台实践》摘要本文系统梳理了自动驾驶云端数据平台的架构演进历程，围绕数据闭环核心，从四大维度展开： 1）基础设施层：通过云原生、服务网格等技术构建高可靠底座； 2）数据流转层：运用湖仓一体、Kappa架构处理PB级数据洪峰； 3）AI智能层：探索大模型在场景挖掘与标注中的前沿应用； 4）效能平台层：借助自动化测试与智能运维保障系统健康。全文通过14个专题，完整呈现了从传统单体架构到支持百万级车辆、日处理PB数据的云原生体系的升级路径，揭示了自动驾驶云端平台在可靠性、扩展

2026-05-21 21:59:31 594

原创论云原生层次架构在自动驾驶云控平台中的应用

【摘要】2024年3月，作为核心架构师主导某新能源车企自动驾驶云控平台重构项目。针对50万辆在线车辆的海量数据处理需求，采用云原生层次架构解决三大核心问题：1）基础设施层通过Kubernetes+Ray框架实现异构算力秒级弹性调度，GPU利用率提升3倍；2）应用层引入ServiceMesh技术实现跨语言微服务治理，业务与通信层解耦；3）数据层构建PostgreSQL+数据湖+Elasticsearch多模态底座，支持PB级数据存储与毫秒级查询。平台于2024年10月上线后，核心响应时间稳定在50ms内，资源

2026-05-21 18:53:15 757

原创一行 torch.add 究竟走过了什么路？——PyTorch 从 Python 到 CUDA 的完整调度链

本文深入剖析了PyTorch中torch.add(a,b)调用的完整执行路径，揭示了其核心调度机制。PyTorch通过七层抽象完成调用，关键组件是Dispatcher系统，它基于TensorImpl中的DispatchKeySet（64位掩码）动态决定算子执行路径。文章详细讲解了：1）PyTorch的三层架构（c10/ATen/torch）；2）Tensor作为轻量级手柄的设计；3）Dispatcher如何通过聚合DispatchKey、查表、调用实现多后端调度；4）Autograd本质是高优先级Dispa

2026-05-17 11:41:40 664

原创 Gang Scheduling:让大规模分布式训练不再「半死不活」

本文探讨了Kubernetes默认调度器在处理分布式训练任务时面临的资源死锁问题，并介绍了两种解决方案：Volcano和Kueue。默认调度器的"per-pod"调度方式会导致资源碎片和双向死锁，而Gang Scheduling（成组调度）通过"all-or-nothing"机制确保任务要么全部调度成功，要么一个都不调度。Volcano作为HPC风格的调度器提供丰富的调度策略，而Kueue作为轻量级准入控制器与原生K8s生态更好兼容。文章还分享了生产落地需要考虑的优先

2026-05-17 10:19:34 642

原创系统架构设计师常见高频考点总结之知识产权和标准化

本文摘要：文章系统梳理了知识产权保护与标准化的核心要点。在知识产权方面，详细阐述了著作权中人身权与财产权的保护期限差异，软件著作权归属规则，以及商标、专利的地域性特征。标准化部分解析了我国四级标准体系（国标、行标、地标、企标）的代号规则与适用范围，特别强调GB/T、DB等关键标识的识别技巧。针对考试备考，指出需重视历年真题中反复出现的"超纲"知识点，建议通过真题掌握教材外的扩展内容，如架构分类法等高频考点。全文为相关领域从业者及应试者提供了清晰的知识框架和实用的备考策略。

2026-05-12 05:00:00 469

原创从 CUDA 基础到性能调优：为什么 GPU Util 100% 是个美丽的谎言

《GPU利用率100%的假象：深入理解CUDA性能瓶颈》摘要 nvidia-smi显示的100% GPU利用率具有极大误导性，它仅表示GPU处于工作状态，而非高效运行。本文揭示了7种常见性能陷阱：1)内存瓶颈导致计算单元闲置；2)细碎算子引发启动开销；3)TensorCore未激活；4)寄存器溢出；5)非连续内存访问；6)计算通信未重叠；7)推理批处理不足。通过工厂类比解析CUDA的两层体系：执行层级（线程-Warp-Block-Grid-SM）决定任务分配，内存层级（寄存器-共享内存-全局内存）影响数据供

2026-05-11 06:00:00 804

原创训练 vs 推理：深度学习工程化中最容易被忽视的“两套世界观“

摘要：本文系统对比了深度学习训练与推理优化的核心差异。训练优化追求长周期吞吐和稳定性，关注GPU利用率、显存峰值和分布式通信效率；推理优化则聚焦低延迟、高并发和尾延迟治理，强调动态批处理、算子融合和量化技术。两者在评价指标、系统瓶颈和技术栈上存在根本性差异：训练工程师关注"填满流水线"，而推理工程师专注"消除抖动"。理解这些差异对选择优化策略和框架至关重要，体现了深度学习工程化的两种不同思维范式。

2026-05-11 05:00:00 585 1

原创深度学习性能调优全景指南：数据、计算、显存、通信四大瓶颈的破局之道

本文系统梳理了大规模深度学习训练中的四大性能瓶颈及其优化策略：数据瓶颈（GPU等待数据）可通过多进程加载、锁页内存、预取等技术优化；计算瓶颈（GPU利用率低）可通过混合精度、算子融合、JIT编译提升效率；显存瓶颈（OOM错误）可通过激活检查点、梯度累积、参数分片缓解；通信瓶颈（多卡扩展性差）可通过梯度分桶、计算通信重叠、RDMA加速优化。文章强调性能调优的核心在于先用Profiler准确定位瓶颈，再针对性地选择优化手段，形成"先诊断后开方"的方法论。这些工业界沉淀的优化技术构成了深度学习

2026-05-10 22:04:41 728

原创大规模深度学习性能调优：自顶向下的五件套

摘要：本文介绍了深度学习性能调优的全栈工具链，从框架层到硬件层的五件套排查方案：1. PyTorch Profiler快速定位算子瓶颈；2. Nsight Systems分析系统级时间线；3. Nsight Compute深入Kernel微架构；4. NCCL_DEBUG排查分布式通信问题；5. nvidia-smi监控硬件状态。作者强调自顶向下的调优策略，指出不同层级工具的开销差异，并给出典型场景的排查流程。其中PyTorch Profiler+Nsight Systems可解决90%问题，Nsight

2026-05-10 21:19:41 1055

原创 Flink 回撤流（Retract Stream）深度剖析：从底层原理到生产调优

本文深入解析Flink回撤流的核心概念与生产实践。回撤流通过-U撤回旧值和+U写入新值的方式实现流式计算的更新语义，是Flink动态表的关键机制。文章详细剖析了回撤流的产生场景（GROUP BY聚合、Regular JOIN等）、RowKind传递原理及状态存储机制，并针对生产环境四大核心问题（Sink兼容性、数据膨胀、状态无限增长、乱序问题）给出了解决方案。重点介绍了MiniBatch、LocalGlobal、State TTL等优化手段，以及如何通过窗口聚合、Lookup Join等方式避免回撤流。最后

2026-05-07 13:35:02 144 1

原创生产环境踩坑记：如何优雅且安全地清理 Flink 过期 Checkpoint 目录？

本文深入剖析了Flink生产环境中状态管理的核心痛点，重点分析了RocksDB增量Checkpoint机制导致的跨作业文件依赖问题。作者通过真实故障案例，揭示了基于时间衰减的清理策略存在的致命缺陷：当旧作业Checkpoint被删除后，依赖其SSTable文件的新作业会因文件缺失而崩溃。文章提出了基于元数据可达性分析的闭环清理方案，通过解析_metadata文件构建依赖树白名单，实现了安全精准的文件清理。这一方案既保证了任务快速恢复能力，又有效控制了HDFS存储空间，为Flink大状态任务的长期稳定运行提供

2026-05-07 12:39:46 80

原创论事件驱动架构在自动驾驶数据闭环平台中的应用

【摘要】本文以2024年某新能源车企"自动驾驶数据闭环平台"重构项目为例，阐述了事件驱动架构(EDA)的设计与实践。针对传统同步架构在高并发场景下的性能瓶颈，项目采用Kafka作为全局事件总线，提出三大核心解决方案：1) 基于本地消息表的发件箱模式确保业务数据与事件一致性；2) 版本号控制的全局状态机与乐观锁机制保障流程有序推进；3) 双重幂等防护与死信队列实现异常容错。重构后系统处理效率提升30%，成功应对PB级数据并发，为自动驾驶算法迭代提供了可靠的数据支撑。

2026-05-06 13:14:18 520

原创从 CUDA Kernel 到 TensorRT Plugin：一条 AI Infra 工程师的最小可复现路径

摘要：本文针对希望从PyTorch调参进阶到编写CUDA算子和部署模型的工程师，提供了一条基于RTX4090D显卡的完整实践路径。文章首先构建CUDA编程的核心心智模型，强调GPU作为吞吐优化设备的特性，并通过向量加法示例展示CUDA程序的完整生命周期。随后对比Triton、PyTorch扩展和纯NVCC三种工程化路径的适用场景，推荐Triton作为大多数场景的起点。核心部分以Swin-Tiny模型中的LayerNorm子图为例，详细拆解从ONNX自定义算子导出到TensorRT插件开发的完整流程，包括符号

2026-05-04 15:49:11 820

原创你以为你在训练大模型，其实你在烧钱打水漂——分布式训练的四个致命陷阱

H100 一张卡的售价能买一辆轿车，一个千卡集群的电费一天就够普通人吃几年。可即便砸下这么多钱，绝大多数团队真正用上的算力，可能还不到硬件理论巅峰的30%。程序还在跑，损失还在降，监控里 GPU 利用率显示 100%——所有指标都告诉你一切正常，但你其实是在原地烧钱。这篇博客把分布式训练里最常见、也最隐蔽的四个坑摊开来讲清楚。每一个我都会用两层语言来解释：先是工程师视角的硬核原理，再用一个生活化的比喻让它"秒懂"。如果你正在搭训练流水线，这篇文章可能值你几千美金的电费。分布式训练四大坑。

2026-05-04 12:49:31 752

原创 PostgreSQL 和 MySQL 的 MVCC 到底有什么区别？从底层存储机制讲透

PostgreSQL和MySQL的MVCC实现差异主要体现在版本存储方式上：PostgreSQL采用"表内版本堆"模式，所有版本都存储在表文件中，通过xmin/xmax判断可见性，更新操作会追加新版本并标记旧版本过期，这种设计使得回滚快速但容易导致表膨胀；MySQL InnoDB则采用"主表+Undo日志"模式，当前版本存储在聚簇索引中，历史版本保存在Undo日志里，通过事务ID和回滚指针构建版本链，这种设计避免了表膨胀但可能造成Undo日志堆积。两种实现各有利弊：P

2026-04-29 09:34:08 516

原创自动驾驶数据闭环中，Video Clip 的多模态特征到底怎么提取？

自动驾驶数据闭环中的Clip特征提取，本质是构建多模态数据的索引系统。一个Clip并非单一视频，而是包含摄像头、LiDAR、GPS等多元信息的综合数据包。特征提取流程需先对齐时间窗口，再分别提取语义、运动、环境等特征。关键环节包括：关键帧抽取、天气识别、轨迹编码、点云分析等。工程落地需注意时间同步、模型选型和版本管理，最终形成结构化标签+向量索引的数据资产。这种处理方式将海量路测数据转化为可检索、可训练的高价值资源，为自动驾驶模型迭代提供燃料。

2026-04-29 09:33:47 911

原创撕开 CPython 的底裤：从巨大的 Switch/Case 到协程调度，一文彻底搞懂 Python 运行机制

本文深入剖析了CPython虚拟机的运行机制，揭示了Python作为解释型语言的本质。通过分析CPython源码中的_PyEval_EvalFrameDefault函数，展示了Python字节码是如何通过一个巨大的switch-case结构调用预编译的C函数实现的。文章指出Python运行缓慢的两大主因：字节码分发开销和动态类型检查成本。随后对比了进程、线程和协程三种并发模型的底层原理及适用场景：进程实现真正并行但开销大，线程受GIL限制，协程适合I/O密集型但需避免阻塞。最后强调理解这些底层机制对优化Py

2026-04-28 17:56:18 550

原创 C++、Java、Go、Python 到底有什么区别？从运行机制到工程场景一次讲清楚

本文对比分析了C++、Java、Go和Python四种编程语言的核心特性。从运行机制看，C++和Go编译为机器码，Java和Python通过虚拟机/解释器执行；类型系统方面，C++、Java、Go为静态类型，Python为动态类型；内存管理上，C++手动控制，其他三者为自动管理；并发模型差异显著，C++最灵活但复杂，Go的goroutine最具特色。性能方面，C++最优，Java长期运行表现佳，Go适合网络服务，Python依赖底层库加速。工程生态上，四门语言各有所长：C++适合底层系统，Java擅长企业应

2026-04-28 17:14:52 518 1

原创一次大数据平台面试被 K8S 追问打穿后，我把这些知识盲点补齐了

【大数据开发面试中的K8S核心知识点】面试发现大数据开发岗位对Kubernetes的要求显著提升。关键要点包括：1）资源调度层面，需区分Spark动态扩Executor与K8S集群扩Node的逻辑差异；2）服务暴露方式要明确ClusterIP/NodePort/LoadBalancer的区别；3）掌握Prometheus四类核心指标；4）理解节点调度策略；5）OOM排查需区分RSS/WSS/container_memory_usage等内存指标。数据平台开发需要建立完整的资源模型认知，包括工作负载扩缩容

2026-04-27 18:31:55 275

DeepSeek-R1-技术报告中文版-由deepseek翻译.pdf

2025-01-24

扩散模型如何在智能交通(自动驾驶、交通仿真、轨迹预测等)领域发挥作用

扩散模型是通过模拟扩散过程、逐渐添加和去除数据中的噪声来生成逼真样本的概率模型。这些模型在图像处理、语音合成和自然语言处理等领域因其生成高质量样本的能力而受到关注。随着扩散模型在各个领域的应用不断增加，现有的文献综述通常专注于计算机视觉或医学影像等特定领域，可能无法满足跨多个领域的广泛受众。因此本综述提供了对扩散模型的全面概述，包括其理论基础和算法创新。突出了其在媒体质量、真实性、合成、图像变换、医疗保健等多个领域的应用。通过整合当前的知识并识别新兴趋势，本综述旨在促进对扩散模型的更深入理解和更广泛的应用，并为各个学科的未来研究者和实践者提供指导。

2025-01-18

AI发展新态势:从技术突破到安全隐忧

2024-12-27

部署开源大模型的硬件配置全面指南

2024-12-21

人工智能大模型技术白皮书

2024-11-28

多模态大模型在视觉领域的全面调查

多模态大模型发展综述

2024-11-21

Kaggle生物信息学挑战：酶稳定性预测大赛

数据集和代码

2024-11-07

Flink CDC的前世今生-设计思想解读

2024-10-22

自动驾驶⻋辆环境感知：多传感器融合

bev技术研究

2024-06-23

单目视频的实时相干3D重建

2024-04-12

针对小尺寸自动驾驶汽车的轻量级语义slam解决方案

2024-04-11

【Kaggle比赛】DFL 德甲足球事件检测大赛（CV·目标检测-视频分类）

2024-04-06

线性回归与逻辑回归测试数据

2024-01-29

Spark面试攻略：全面准备与技巧指南.docx

Spark面试攻略：全面准备与技巧指南

2024-01-26

知识问答助理python代码

2024-01-06

一个在有序行和列的矩阵中选择第k小元素的O(n)时间复杂度算法

这篇文章是《Information Processing Letters》1985年第20卷第1期的一篇论文，标题为“Selection in X+Y and Matrices with Sorted Rows and Columns”，作者是A. Mirzaian和E. Arjomandi，来自加拿大约克大学计算机科学系。文章的主要内容是关于在有序矩阵中进行选择（selection）问题的研究。具体来说，文章提出了一个在有序行和列的矩阵中选择第k小元素的O(n)时间复杂度算法。这个问题在统计学和运筹学中有应用，并且与VLSI布局问题相关。

2024-01-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DeepSeek-R1-技术报告中文版-由deepseek翻译.pdf

扩散模型如何在智能交通(自动驾驶、交通仿真、轨迹预测等)领域发挥作用

AI发展新态势:从技术突破到安全隐忧

部署开源大模型的硬件配置全面指南

人工智能大模型技术白皮书

多模态大模型在视觉领域的全面调查

Kaggle生物信息学挑战：酶稳定性预测大赛

Flink CDC的前世今生-设计思想解读

自动驾驶⻋辆环境感知：多传感器融合

单目视频的实时相干3D重建

针对小尺寸自动驾驶汽车的轻量级语义slam解决方案

【Kaggle比赛】DFL 德甲足球事件检测大赛（CV·目标检测-视频分类）

线性回归与逻辑回归测试数据

Spark面试攻略：全面准备与技巧指南.docx

知识问答助理python代码

一个在有序行和列的矩阵中选择第k小元素的O(n)时间复杂度算法

数据中台的集群规划和搭建

数据中台的集群规划和搭建

数据中台的集群规划和搭建

数据中台的集群规划和搭建

软考系统架构设计师实战论文集：自动驾驶与AI云端架构演进

软考系统架构设计师备考资料

系统架构师英语考题必看：为什么你单词都认识，却总是选错？（附备考策略）

DolphinScheduler 与 Spark 在 Kubernetes 上的部署：一步步指南

bitnami/zookeeper 3.6 docker镜像

Map-World：用“填空”与“路径积分”重构自动驾驶规划范式

计算广告建设书籍打包版

RT-2：Google DeepMind的机器人革命-如何让AI从网页知识中学会操控现实世界

字节具生机器人模型GR-3技术报告

Seedream 4.0技术报告

2025年ASR技术前沿：从端到端模型专利到AI语音就业机会，全方位解析自动语音识别的未来

解锁亚马逊评论的秘密：基于语义嵌入与 t-SNE 可视化的深度分析

深度解析：Spark、Hive 与 Presto 的融合应用之道

SuperSonic 为机器人制造企业数字化转型注入强劲动力

Chain-of-Verification (CoVe)：让大模型“自我审校”的技术如何落地？

扩散模型资源与最新研究大汇总：从图像生成到自动驾驶的前沿探索

扩散模型在低级视觉任务中的应用：5个必看开源项目附代码

KIMI K1.5：大规模强化学习在大语言模型中的应用与工程实践

基于对抗学习的多级交互融合网络用于高光谱和LiDAR数据融合分类

基于李宏毅老师深度强化学习蘑菇书EasyRL

空空如也