- 博客(62)
- 收藏
- 关注
原创 两个 5×5 池化等效于一个 9×9。
对于 Max Pooling 来说,$ \max(\max(A), \max(B)) $ 等于 $ \max(A, B) $。无论你分几次取最大值,只要覆盖的范围一致,最终抓出来的那个“最强者”一定是一样的。在卷积神经网络中,多个小尺寸的核(卷积或池化)串联起来,其效果在**覆盖范围(即感受野)**上可以等效于一个大尺寸的核。SPPF 利用了前一次计算的结果,避免了在大尺寸核下的重复扫描。为了计算第二层的“中心输出点”,我们需要看第一层的。,因此在 YOLO 的语境下,它们的计算数值是。
2026-05-14 15:03:30
310
原创 YOLOv5 核心模块功能与作用详解
参数量(Params)**之间寻找最佳平衡点。在自定义模型时,你可以根据任务需求,在 YAML 文件中替换相应的模块。函数中,它们被归为一类,因为它们都遵循相似的通道缩放(gw)和参数处理逻辑。这类模块通常放在 Backbone 的末尾,负责捕获不同尺度的上下文信息。这些模块是构建 YOLOv5 的“乐高积木”。这类模块是模型获取深度、提取高级语义信息的关键。这类模块负责最基本的特征提取和空间下采样。这些结构分别是什么意思,以及有什么作用。这些模块的设计初衷都是为了在。、**速度(Latency)
2026-05-14 15:02:00
322
原创 parse_model 函数的收尾部分,负责将计算好的参数实例化为真实的 PyTorch 层,并完成元数据的绑定和通道账本的更新
它把 YAML 里的“文字指令”变成了。
2026-05-14 14:59:06
460
原创 YOLOv5 的动态模型构建机制
这种设计的精妙之处在于,开发者只需修改配置文件中的缩放因子(gd, gw),就能在不改动任何代码的情况下,动态生成从 Nano 到 Large 等不同体量的模型。这是为了告诉模型,哪些层的输出在后续会被用到(例如在特征金字塔 FPN 结构中,深层特征需要与浅层特征 Concat)。它将一个抽象的“重复 9 次”的指令,根据当前的全局缩放比例,转换成了符合当前硬件算力要求的具体 PyTorch 层对象。这行配置的本意是:“在上一层的基础上,添加一个输出通道为 512 的 C3 模块,默认重复 9 次”。
2026-05-14 14:57:02
519
原创 BM25 + Embedding 混合检索 实现
我们做一个标准的:🔎 BM25(关键词召回) + Embedding(语义召回) + 融合排序。
2026-05-12 16:55:56
182
原创 alpha和r参数的区别
👉r 决定你“有多少本事”👉alpha 决定你“说话算不算数”👉r:学多少(容量)👉alpha:影响多大(强度)👉两者配合决定效果。
2026-04-14 17:22:47
44
原创 resnet的模型结构和block是什么样的,怎么对应到代码中的网络搭建
👉 ResNet代码 =block定义(结构) + make_layer(堆叠规则) + 主干拼接。
2026-04-13 11:42:13
160
原创 bert和LLM训练的时候输入输出的格式是什么有什么区别
👉 BERT =看全文 → 理解 → 输出表示/分类👉BERT 是“理解输入”👉LLM 是“生成输出”BERT:P(词 | 全上下文)LLM :P(下一个词 | 已生成词)
2026-04-10 11:04:27
189
原创 @property用和不用的区别
对比点不用 @property用 @property调用方式obj.x表现形式方法属性可读性一般更好封装性有,但不优雅更 Pythonic👉 不用@property:你在用“函数”👉 用了@property:你在用“属性”,但背后是“函数”
2026-03-20 11:38:20
249
原创 为什么 student 用 log_softmax
KL 散度公式要求PyTorch 接口规定数值更稳定梯度更合理避免重复 log工业界统一标准写法。
2026-01-22 15:50:36
743
原创 为什么为了让邻近位置得分高,必须满足:方向(Q1) ≈ 方向(K2),而且Multi-Head是怎么学到不同的几何关系的,如果我设置的head数量不同呢
要让 Q1 对 K2 的注意力分数更高,必须保证它们方向接近(数学上唯一可行)。
2025-12-11 17:32:15
789
原创 为什么加上位置编码后 patch 会有空间信息 需要解释一下
很多人以为:实际上理解这个问题,只需要搞清楚两件事:本质很简单:比如:加到 patch feature 上以后:现在每个 patch 的 embedding 都不同了,不仅包含内容,还包含位置。这一点非常关键:Transformer 的注意力更新公式:也就是说:于是注意力权重:会自动包含:举例:→ 注意力更容易连通它们→ 模型从注意力结构中学到“它们是邻居”→ 注意力连接更弱→ 模型学到“它们距离远”注意力矩阵逐渐学到 二维空间拓扑结构。你可能会问:原因是:✔ 注意力天然会把相邻 index
2025-12-11 17:31:12
722
原创 vit创建一组可学习的位置编码是怎么初始化的,怎么体现不同位置的
这已经在大量论文中可视化过 —— 位置编码的 PCA 会形成非常规整的 2D 网格。举例:Transformer 在训练时会学习任务(分类或对比学习)。Transformer 看到足够多的数据后会自动学出二维结构。Transformer 的 Q/K/V 是从。假设某个任务需要识别“猫在左边还是右边”。OpenCLIP/CLIP 的实现是。ViT 的位置编码本质上是。(不像卷积是 2D)。
2025-12-11 17:29:59
951
原创 多头和q,kv的区别
概念含义Q/K/VAttention 的基本向量(Query/Key/Value)多头(Multi-Head)使用多组 Q/K/V 并行地做注意力Q/K/V 是向量,多头是结构。← 最重要。
2025-12-11 17:26:39
308
原创 服务器的端口有多少个,为什么是这个数量
服务器端口数量 =65,536 个由TCP/UDP 端口字段为 16 位决定分为 well-known / registered / dynamic 三类历史兼容性导致该标准永久固定。
2025-11-28 14:50:04
603
原创 <module> register_finder(pkgutil.ImpImporter, find_on_path) AttributeErro
Python 3.12 对应的 get-pip.py 是新版,兼容性是没问题的。pipx 是纯 Python 工具,用 conda-forge 安装最稳。所以 pip 在 Python 3.12 下直接崩了。仍然试图使用这些已移除的 API,因此无法运行。我可以一步步带你配置到可正常使用 Strix。如果成功,pipx 就能安装了。
2025-11-26 16:12:55
382
原创 ID3 算法为什么可以用来优化决策树
信息增益驱动:每次选择最能区分类别的特征,减少树的不确定性。贪心递归构建:快速生成高效结构,尽可能少的分支和深度。提前停止划分:避免冗余节点,提高分类效率。ID3 用“最优划分特征优先”的策略,让树更短、更准确、更高效。
2025-11-24 14:25:22
161
原创 大模型微调
非常好 👍你已经有(这点非常有优势),转向其实正是目前最有潜力的方向之一。下面我帮你系统梳理一下——的完整路线图,分为四个阶段讲清楚每个阶段该学什么、做到什么水平,以及可以如何结合你的已有技术栈。
2025-11-07 17:07:49
749
原创 项目下有多个模块,每个模块有pom文件,是怎么继承的
项目角色说明父 pom统一管理版本、插件、属性子 pom继承父 pom,声明自身依赖管理但不引入依赖<modules>声明子模块路径会构建所有模块,保证依赖顺序。
2025-11-05 16:20:19
476
原创 XGBoost的原理
初始化预测值(常数)计算梯度和二阶导寻找最优分裂点,生成新树更新预测值重复若干轮,直到损失不再下降XGBoost 是一种基于梯度提升(Boosting)的高效树模型,它通过一阶 + 二阶导数近似、正则化与并行优化,使得模型兼具速度、精度和泛化能力。如果你想更进一步,我可以帮你画一个图(流程图或残差拟合示意图)来直观理解“多棵树逐步修正误差”的过程,要不要我画一个?
2025-11-03 16:16:23
855
原创 蓝绿部署的具体方式是怎么切换流量的
切换方式控制层切换速度零停机成本回滚难度负载均衡器切换网络层秒级✅高很容易应用层秒级✅中容易K8s Label服务编排层秒级✅中容易DNS域名层分钟级⚠️ 可能短暂中断低较慢。
2025-11-03 13:59:45
614
原创 服务各部署的区别
名称一句话理解蓝绿部署“两套环境,切换指针”金丝雀发布“先让一小部分人试试看”滚动部署“逐台更新”灰度发布“渐进式上线,动态调整流量”
2025-11-03 13:52:07
490
原创 Agent 与 Workflow 的区别总结
🔹Agent = 智能决策与行动的单元(可思考、可执行)🔹Workflow = 多个 Agent 或工具的编排逻辑(执行路径固定或可配置)
2025-10-30 13:50:35
297
原创 vue项目中有的多个.env文件的配置
命令默认 mode加载文件.envproduction.envtest.env.env.testA.env.env.A.env.A以--mode A.env.env.local.env.A.local文件优先级最高,且默认会被.gitignore忽略(适合存放机密变量)。Vue CLI 的文件机制是可扩展的:除了默认的productiontest你可以用任意自定义模式(如.env.A.env.B),只要在命令中使用--mode A或--mode B。
2025-10-28 14:50:27
441
原创 为什么python服务需要设置host为0.0.0.0才能被外部访问,127.0.0.0不行
地址含义是否允许外部访问127.0.0.1仅监听本机 loopback 接口❌0.0.0.0监听所有网卡接口✅127.0.0.1= “只让我自己听”;0.0.0.0= “谁都能来听,但要我自己防护”。
2025-10-28 14:48:24
1377
原创 基于大模型的中文问题英文答案的中问英答方案
这些模型在训练时大多数语料为英文,因此它们的输出语言自然倾向于英文。只要你再在提示词上“锁死”输出语言,就能实现稳定英文回答。WEBCPM:最近一个“中文问题”+“中文答案”但构造过程中参考了英文QA论坛。PsyQA:中文心理健康问答数据集(22,000个问题+56,000多答案)(这样即使模型在对话中遗忘系统规则,也会被本轮 prompt 拉回英文输出。MLQA:多语言抽取式问答基准数据,包含简体中文和英文。、且英文表达自然流畅的模型。即使模型能多语言理解,你仍需要。
2025-10-28 14:04:57
956
原创 Gunicorn + Flask 体系下精准区分两类超时来源(连接层超时和应用层超时)
Gunicorn + Flask 体系下精准区分两类超时来源:这类问题 Gunicorn 默认日志看不出来,我们需要通过日志+配置结合分析。下面是一份完整的实践指南👇Gunicorn 只有一种真正的“超时”:它监控的是:因此:如果日志中出现→ 请求已连接,但没被及时处理或卡在内部逻辑(应用层问题)。如果没有此日志但客户端报超时→ 请求可能根本没到 Gunicorn(连接层问题)。我们可以让 Flask 主动打印三个阶段:启动命令:分析逻辑:加上:日志格式(默认):分析方式:临时查看 TCP
2025-10-27 09:56:02
871
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅