- 博客(3064)
- 收藏
- 关注
原创 摩西十戒
第一条:“我是耶和华-你的神,曾将你从埃及地为奴之家领出来,除了我之外,你不可有别的神。”第二条:“不可为自己雕刻偶像,也不可做什么形象仿佛上天、下地,和地底下、水中的百物。不可跪拜那些像,也不可事奉它,因为我耶和华-你的神是忌邪的神。恨我的,我必追讨他的罪,自父及子,直到三四代;爱我、守我戒命的,我必向他们发慈爱,直到千代。”第三条:“不可妄称耶和华-你神的名;因为妄称耶和华名的,耶和...
2019-01-11 17:57:25
3426
1
原创 详细介绍 一下 IPU CGRA dataflow ASIC
本文对比分析了三种新型计算架构:IPU、CGRA和Dataflow ASIC。IPU(如Graphcore)采用图计算执行方式,适合稀疏/不规则计算;CGRA通过可重构计算阵列提供高灵活性,适合自定义算子;Dataflow ASIC则为固定高性能推理场景提供极致性能。三者各具优势:IPU=软件图执行灵活性,CGRA=硬件可编程性,Dataflow ASIC=专用高性能。选择取决于具体应用场景对灵活性和性能的需求。
2026-04-09 14:40:58
278
原创 是不是 低秩表达 三阶 attention 的本质 还是 二阶
摘要: 低秩分解后的三阶表达式本质上是多个二阶结构的组合,而非真正的三阶结构。关键在于它并非退化为单一二阶,而是转化为一组可叠加的二阶形式。通过公式分析,原始三阶张量$f(x,y,z)=\sum_{i,j,k}T_{ijk}x_iy_jz_k$在低秩分解后表现为二阶结构的线性组合,揭示了高阶模型的底层逻辑。这一区别对理解模型复杂度与表达能力具有重要意义。
2026-04-09 12:46:29
271
原创 如果 用高阶attention O (n3 ) 复杂度 ,需要多少算力
三阶attention的算力需求远超二阶,从O(n²)提升到O(n³),导致计算成本呈灾难性增长。普通Transformer的attention计算基于点积S_ij=q_i⊤k_j,而三阶attention会引入更复杂的计算模式。当序列长度增加时,三阶attention的计算资源消耗将变得难以承受,使多数实际应用场景无法运行。这种指数级增长的计算复杂度是三阶attention难以推广的根本原因。
2026-04-09 11:32:04
309
原创 华为 的 npu 架构如何 进行 flash attention
SRAM与HBM/DRAM的成本差异显著。SRAM每GB成本约为HBM的10-100倍,甚至在某些工艺下每bit成本高达DRAM的50-150倍。这是由于SRAM采用6晶体管结构,面积大(100-150 F²/bit),而DRAM/HBM采用1晶体管+电容结构,面积小(6-10 F²/bit)且需要刷新。这种物理密度差异导致SRAM成本远高于HBM,对理解FlashAttention等技术的设计考量至关重要。
2026-04-09 11:22:18
288
原创 flashattention 是 适配 英伟达的 gpgpu ,如果计算架构改了 ,flashattention也 会改
FlashAttention的核心思想是优化内存IO调度策略,通过减少HBM与SRAM之间的数据传输次数来提升性能。其本质是解决"Data Movement ≫ Compute"的问题,而非特定算法。当前实现主要针对NVIDIA GPU架构特性,但其思想具有通用性。具体实现需要根据不同硬件架构进行调整,以最大化减少IO瓶颈。
2026-04-09 09:55:32
302
原创 为何我读书越多,内心却越感到空虚
书里告诉你努力可能只是系统的剥削,道德只是统治阶级的工具,甚至连你引以为傲的自我意识,不过是潜意识和环境的随机产物。你挖出了自己的一只眼睛扔进泉水,看到了世界的荒诞和虚无。他失去了一只眼睛换来了全知,然后彻底陷入了无法逆转的虚无和焦虑,因为他知道一切挣扎都是徒劳。你在书本里获取了上帝视角的快感,关上书,你还得去挤早高峰的地铁,还得面对老板的弱智绩效。但你忘了,神话里的奥丁在看到必然的毁灭后,没有原地等死,他还是拿起了永恒之枪。这世界上最残忍的事,就是你具备了看穿一切的眼力,却没具备改变这一切的能力。
2026-04-08 11:14:39
341
原创 RoPE 指数频率设计与傅里叶基本质解析
RoPE位置编码本质是利用对数均匀分布的频率构造傅里叶基近似,实现多尺度位置建模。其核心设计$10000^{2i/d}$生成对数空间均匀频率,使Attention能同时捕捉长短距离关系。不同于严格傅里叶基,RoPE采用工程化频率采样方案,形成平移不变核函数。现代改进如NTK-aware和YaRN本质是优化频率分布策略。这一设计让Transformer能通过有限维傅里叶特征近似位置核函数,实现内容相似度与位置信息的有效结合。
2026-04-07 11:41:48
162
原创 RoPE 数学本质
摘要:RoPE(Rotary Position Embedding)的本质是将嵌入向量的每两维视为复数,施加与位置相关的相位旋转,使注意力内积仅依赖相对位置信息。原三点判断需修正:1) 嵌入向量被解释为复数向量而非仅实部;2) θ确实是复角;3) 旋转是每组二维维度绕自身原点旋转,而非整体向量绕中点旋转。数学上,RoPE对应分块对角旋转矩阵,保持内积结构不变。最终使注意力机制仅编码相对位置差,实现位置感知。这种复数空间旋转群作用揭示了RoPE与傅里叶变换的深层联系。
2026-04-07 11:27:07
329
原创 RoPE 的数学表达式
RoPE(旋转位置编码)是一种创新的位置编码方法,通过旋转矩阵将位置信息融入Transformer的注意力机制中。其核心思想是将embedding向量按两维分组,对每组应用旋转变换,旋转角度与位置相关(θ=pos/10000^(2i/d))。这种方法能保持相对位置关系,使注意力分数仅依赖位置差。RoPE可用复数形式简洁表示(z'=ze^(iθ)),工程实现上通过交替应用正弦余弦变换完成。其优势在于保持序列长度外推性,已成为LLaMA等主流模型的标准配置,数学性质优雅且计算高效。
2026-04-07 11:22:57
363
原创 RoPE → Attention 完整
本文档详细介绍了Transformer模型从输入到RoPE位置编码再到注意力机制的全流程实现。内容包括:1) 输入token序列通过嵌入层转换为向量表示;2) 使用旋转位置编码(RoPE)对序列位置信息进行编码;3) 完整的注意力计算过程。每个步骤都提供了数学表达式和对应的PyTorch实现代码,便于直接参考和使用。文档结构清晰,包含"输入→RoPE→Attention"三个主要部分,形成完整的Transformer前向传播流程说明,适合需要了解或实现Transformer模型的读者参考
2026-04-03 14:18:08
374
原创 复数 多项式在 黎曼球上的 几何表示
基于深度学习的图像识别技术研究取得新进展。研究团队提出了一种改进的卷积神经网络模型,通过优化网络结构和训练策略,显著提升了图像分类和目标检测的准确率。实验结果表明,该方法在多个公开数据集上的性能优于传统算法,特别是在复杂场景下表现出更强的鲁棒性。该技术可广泛应用于安防监控、医疗影像分析等领域,具有重要的实用价值。
2026-04-03 10:25:06
219
原创 eiθ=cosθ+isinθ证明
本文通过两种方法证明欧拉公式$e^{i\theta}=\cos\theta+i\sin\theta$。泰勒级数法将指数函数展开为幂级数,代入虚数单位$i$后分离实部和虚部,分别对应余弦和正弦函数的级数展开。微分方程法构造辅助函数并求导,证明其为常数后通过初值确定等式关系。最后指出该公式的几何意义表示平面上的单位旋转,对应旋转矩阵。两种证明方法从不同角度揭示了指数函数与三角函数之间的深刻联系。
2026-04-03 09:40:14
417
原创 道家的精髓是什么
道家思想揭示人类社会本质上是能量困局,主张"无欲不争"以保护自身能量。其核心观点认为:1.人类社会是循环的能量矩阵,通过制度规范束缚个体;2."道法自然"强调效法万物本真状态,如水般"利万物而不争";3.破局之道在于拒绝定义、保持观察者视角、提升精神能量。这与荣格能量学说及斯多葛主义等自立哲学相通,都指向摆脱系统驯化、回归本真存在的终极追求。
2026-03-30 18:13:34
306
原创 为什么有些人的预判能力这么强
精准预测能力的本质是基于极度悲观的人性认知和对行为底线的深刻理解。多数人因掺杂主观期待而判断失误,而预判高手完全剥离情绪,只观察事实底线。这种能力往往源于缺乏安全感的环境,迫使人们提前穷尽最坏可能。当你能沉默见证他人重复自身缺陷时,预判能力便达到顶峰。看透人性弱点虽能带来安全,却也伴随巨大心智消耗和孤独感,让人难以融入群体狂欢。
2026-03-30 09:32:22
356
原创 糖尿病的发病机理是什么
肝脏功能受损会破坏血糖调节机制,导致血糖堆积、胰岛素持续分泌,最终引发糖尿病。健康的血糖调节需要肝脏将多余血糖转化为肝糖原和脂肪,但现代饮食中的高糖、高脂、添加剂等加重肝脏负担,使其无法正常代谢血糖。治疗应首先保护肝脏功能,而非单纯控制饮食或依赖药物。不当的饮食方式如生酮饮食反而会加重肝脏工作负担。传统饮食结构更有利于肝脏和胰岛功能的健康维持。
2026-03-26 14:05:07
44
原创 张雪峰不幸去世,怎么评价他的一生
中国大学困境源于其社会定位下降。从博洛尼亚、巴黎到洪堡的柏林大学,大学的核心功能并非知识传授,而是共同体再生产。志愿填报产业链兴起、家长教育投入过度等现象,反映出大学教育本质的异化。传统大学通过同乡会等形式维系共同体,而现代大学已偏离这一根本功能。
2026-03-26 13:47:05
379
原创 截止到 2026-3 自动驾驶开源算法中 哪个算法最强
【开源自动驾驶算法选型指南(2026年)】 核心观点:算法选择需适配场景需求,不存在绝对"最强"。2026年最新开源方案推荐: 纯视觉BEV感知(低成本量产首选): UniAD等TOP3方案适配相机输入 优势:快速迭代调参 多传感器融合(高阶自动驾驶): 激光雷达+相机融合方案 重点考虑传感器标定与同步 端到端方案(前沿研究方向): 需关注数据闭环能力 适合科研探索 选型关键:平衡性能、开源质量、社区活跃度与部署难度,根据硬件算力和工程需求选择最适配方案而非盲目追求指标。
2026-03-18 11:32:41
440
1
原创 像摩尔线程和 沐曦科技怎么解决 nccl 通信问题
国产GPU厂商摩尔线程和沐曦科技采用与NVIDIA类似的架构思路,但针对国产PCIe服务器环境进行了优化。摩尔线程通过MTLink 2.0实现8卡全互联(240GB/s带宽),配合自研MCCL通信库和ACE异步通信引擎,显著提升集群性能。其方案支持5D并行和千卡平台,在PCIe环境中实现91%的线性加速比,并通过故障隔离保持90%以上的有效训练时间。整体技术路径聚焦国产化适配与通信效率优化。
2026-03-17 17:25:14
474
原创 华为 昇腾 架构怎么 解决这个 NCCL 通信问题
华为昇腾架构通过硬件互联、HCCL通信库、协议创新和工程优化四维方案解决分布式训练中的通信超时问题。其核心思路是提升通信带宽、降低延迟、适配NPU特性并提供容错机制,与NVIDIA方案既有共性又存在显著差异。昇腾方案针对NPU特性进行专门优化,通过系统性方法确保分布式训练的高效稳定运行。
2026-03-17 17:23:00
448
原创 [E ProcessGroupNCCL.cpp:828] [Rank 3] Watchdog caught collective operation timeout: WorkNCCL(SeqNum=
文章摘要: 通过分析nvidia-smi topo -m输出,确认系统存在两个关键硬件问题:1) 所有GPU间仅通过PCIe连接(无NVLink),导致通信带宽受限;2) 单机8卡配置但通信链路复杂。这解释了NCCL超时的根本原因。针对该硬件环境提供了两种解决方案:1) 优化多卡运行方案(选择4-7号GPU并延长超时阈值);2) 单卡运行保证稳定性。文中给出了可直接复用的具体命令参数,重点解决了PCIe环境下的多GPU通信瓶颈问题。
2026-03-17 17:17:15
487
原创 各位都是怎么度过人生的至暗时刻的
《龙蛇之变》感悟:做人应如龙蛇般能屈能伸,得意时如龙腾飞不自卑,失意时如蛇蛰伏不自傲。无论境遇如何,都要专注当下,保持空杯心态,一往无前。强者之路充满坎坷,需淡定面对,遇强则强。冷静回顾过往,坚定迈向未来。(150字)
2026-03-16 15:33:01
57
原创 小鹏的世界基座模型和 哪个开源项目类似
小鹏720亿参数物理AI世界模型与开源项目对比分析显示,其与NVIDIA Cosmos-Drive-Dreams最为相似,具备原生多模态融合、物理世界深度理解和跨任务泛化三大核心特性。同时,小鹏在V→A直连架构纯度和视觉思维链推理方面实现关键突破。对比维度包括定位架构(世界基础模型到物理AI操作系统)、多模态处理等五大方面,展现出独特的技术优势。该研究为自动驾驶领域的世界模型发展提供了重要参考。
2026-03-16 11:53:29
568
原创 小鹏的第二代vla 类似哪个开源项目
小鹏第二代VLA与开源项目OpenDriveVLA在技术理念和架构上最为接近,均采用"视觉优先+直接动作输出"模式。但小鹏VLA在物理世界理解深度和架构纯度(取消语言转译环节)上实现了关键突破,这是当前开源项目尚未完全复刻的核心差异。通过四大维度对比显示,小鹏VLA完成了从V-L-A到V→A的范式跃迁,在端到端控制输出方式上更具先进性。
2026-03-16 11:37:07
604
原创 自动驾驶世界模型 开源最强的 前十个 项目
2026年3月最新自动驾驶世界模型开源TOP10项目包括:1)OpenDriveVLA(端到端VLA大模型,支持多模态输入);2)SparseWorld(稀疏4D占用预测,推理速度快7倍);3)Cosmos-Drive-Dreams(NVIDIA世界基础模型,支持数据生成);4)UniAD(规划导向的端到端框架)。这些项目在技术前沿性、社区活跃度和落地实用性方面表现突出,涵盖感知、预测、规划等全栈自动驾驶任务,提供完整的开源代码和预训练模型。
2026-03-16 11:03:45
599
原创 自动驾驶 World Model 开源项目 Top20(研究价值 + 工程价值)
自动驾驶相关的开源项目其实已经不少,但大部分还在。本文整理的开源项目列表,并按技术路线分类。
2026-03-16 10:23:47
353
原创 世界模型 有哪些开源项目
本文整理了自动驾驶领域World Model相关的实用开源项目,重点介绍了当前主流技术路线3D Occupancy世界模型。其中OccWorld项目具有显著研究价值,采用3D occupancy建模方式,可同时预测未来场景和自车轨迹,支持自监督训练。该项目能够预测车辆/行人运动和可行驶区域变化,技术路线与特斯拉Occupancy Network高度接近。项目代码已开源(GitHub:wzzheng/OccWorld),为自动驾驶研究提供了重要参考。
2026-03-16 10:06:21
420
原创 自动驾驶 世界模型 有哪些
自动驾驶世界模型(DWM)是实现智能驾驶的核心技术,通过构建动态内部表征实现从被动响应到主动预判的跨越。本文系统梳理了学术研究和产业实践中的主流方案。学术研究类主要包括生成式世界模型、神经辐射场模型和Transformer架构模型;产业实践类则涵盖特斯拉的Occupancy Networks、Waymo的MotionFormer等商业应用方案。这些模型通过不同技术路径解决感知、预测和决策的全链路问题,推动自动驾驶技术发展。
2026-03-16 09:59:53
393
原创 如果中国用500年的时间 吞并亚欧大陆 ,应该采取哪种策略
中国当前首要地缘战略方向聚焦三大关键领域:1)陆地资源节点(中亚、伊朗周边等),确保能源安全与战略缓冲;2)海上贸易通道(南海、马六甲等),掌控全球贸易杠杆;3)信息技术高地(半导体、AI集群),抢占未来技术制高点。这一战略遵循"资源密集-杠杆放大-结构优势"的递进逻辑,优先选择成本可控、收益最大化的区域,通过渐进式布局而非直接对抗来构建长期地缘优势。
2026-03-13 17:49:49
55
原创 为什么财不可外露
这样一代又一代,就进化出敌视露富的基因——邻居多收了100斤粮食,不用怀疑,一定是通过某种隐秘的方式窃取了你的收成,比如窃取水源等等。你不需要查明原因,因为查明原因需要消耗资源,只要不择手段的消灭周围的一切成功者,你就成功了。下,成功的个体大概率是增加总收益,邻居增产大概率是有育种妙法。所以说文化是个很神奇的东西,20年前的时候玄幻主角都是一路装逼,因为那是一个正和博弈的时代。在绝对的零和博弈下,同阶级的一切得利者都是敌人。正和博弈下,成功者是可以跟从的带头大哥。
2026-03-12 11:17:37
168
原创 脱离战场,远比赢得战斗更重要。
摘要:本文强调远离负面环境比战胜对手更重要。指出应当主动远离任何令人不适的人际关系,无需对抗、辩论或施以援手,只需果断抽身,避免陷入无谓纠葛。核心观点是"脱先"策略——及时退出不利局面,保持自身清净。(98字)
2026-03-11 20:17:31
37
原创 下载 coco数据
本文介绍了使用aria2c工具高效下载COCO数据集的方法。首先删除可能存在的train2017.zip文件以避免校验冲突,然后通过青云镜像以16线程并发下载训练集、验证集和标注文件。其中特别说明了使用-q参数指定下载目录为当前路径,并展示了如何单独下载标注文件的命令。整个过程利用了aria2c的多线程和断点续传功能,显著提升了大文件下载速度。
2026-03-11 10:15:54
48
原创 人的 大脑中,是不是 有外部植入的错误逻辑,像计算机病毒一样 ,就像我之前 必须上私立学校 ,掏空了现金流,比如必须买房的这个 概念,让2018-2024 年买房的人全部 亏损,比如 清明祭祖必须回家
本文探讨了现代社会中可能存在的"思想钢印"现象——那些被普遍接受却可能损害经济利益的观念。作者列举了50种常见的经济陷阱,如"必须买房""必须上私立学校"等,指出这些观念如同植入大脑的"病毒逻辑",导致人们做出非理性消费和投资决策。文章特别提到2018-2024年购房者的普遍亏损,以及传统节日返乡带来的精神内耗等实例,揭示这些"必须"行为背后隐藏的经济代价和心理负担。通过系统梳理这些潜在的经济陷阱,本文旨在引
2026-03-09 11:46:29
28
原创 现在(提问于 2019 年)的中国和二十年前有哪些不同?
另外,高加索山脚下的河谷像新疆的伊犁,美得令人心动,却可能是我见过的世上最友好的葡萄生长自然环境,好于波尔多,好于皮埃蒙得。本世纪初那几年,莆田搞医院与电信诈骗的精神小伙还没有搬去柬埔寨,狗推都是自愿入职的不绑票,每次开了大单,庆祝方式还不是放烟花,而是请全团队去KTV,一人一箱82年的拉菲,不醉无归。去年圣诞节前后,我正在格鲁吉亚的乡下找种葡萄的地,有个哥给我发来法国的信息,说波尔多Entre-Deux-Mers产区的 Latour-Laguens 城堡挂出来拍卖了,要不要,起拍价15万欧元。
2026-03-08 19:09:17
403
原创 为什么出发点极好的乌托邦主义往往酿成悲剧
乌托邦主义失败的根本原因在于违背了"复杂性不对称"这一数学公理。控制论奠基人阿什比提出的"必要多样性定律"(Vc≥Vd)指出:要有效控制系统,控制者的复杂性必须高于被控系统。乌托邦主义者试图用低维度的线性算法控制高维度的复杂自适应系统,这种结构性矛盾必然导致失败,而非单纯道德问题。
2026-03-06 18:35:16
51
原创 fundamentalvision和OpenDriveLab和OpenMMLab 三者之间的 关系 有什么 共同合作的项目
FundamentalVision、OpenDriveLab和OpenMMLab是上海人工智能实验室旗下的三大开源项目,构成自动驾驶与计算机视觉领域的协同生态体系。FundamentalVision聚焦基础视觉研究,OpenDriveLab专注于自动驾驶专用技术,OpenMMLab提供通用视觉工具链。三者在BEV感知等前沿方向深度协作,共享技术理念与生态资源,形成"基础研究+专用技术+工具链"的完整闭环。这一体系由Hongyang Li等学者推动,代表了自动驾驶领域的重要学术开源力量。
2026-03-06 13:33:33
356
原创 OpenDriveLab和OpenMMLab 什么关系
OpenDriveLab与OpenMMLab是上海人工智能实验室旗下的两个开源组织,在自动驾驶与计算机视觉领域形成协同互补关系。OpenMMLab专注于通用视觉工具链开发,而OpenDriveLab则聚焦自动驾驶专用研究,共同构建完整技术栈。两者共享技术底座,分别服务于不同应用场景:OpenMMLab提供基础视觉算法支持,OpenDriveLab则针对自动驾驶场景进行深度优化,形成"基础研究+垂直应用"的创新生态。这种分工协作模式体现了实验室在AI领域的战略布局,既保持基础研究的广度,又
2026-03-06 13:30:02
346
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅