自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 两个 5×5 池化等效于一个 9×9。

对于 Max Pooling 来说,$ \max(\max(A), \max(B)) $ 等于 $ \max(A, B) $。无论你分几次取最大值,只要覆盖的范围一致,最终抓出来的那个“最强者”一定是一样的。在卷积神经网络中,多个小尺寸的核(卷积或池化)串联起来,其效果在**覆盖范围(即感受野)**上可以等效于一个大尺寸的核。SPPF 利用了前一次计算的结果,避免了在大尺寸核下的重复扫描。为了计算第二层的“中心输出点”,我们需要看第一层的。,因此在 YOLO 的语境下,它们的计算数值是。

2026-05-14 15:03:30 310

原创 YOLOv5 核心模块功能与作用详解

参数量(Params)**之间寻找最佳平衡点。在自定义模型时,你可以根据任务需求,在 YAML 文件中替换相应的模块。函数中,它们被归为一类,因为它们都遵循相似的通道缩放(gw)和参数处理逻辑。这类模块通常放在 Backbone 的末尾,负责捕获不同尺度的上下文信息。这些模块是构建 YOLOv5 的“乐高积木”。这类模块是模型获取深度、提取高级语义信息的关键。这类模块负责最基本的特征提取和空间下采样。这些结构分别是什么意思,以及有什么作用。这些模块的设计初衷都是为了在。、**速度(Latency)

2026-05-14 15:02:00 322

原创 YOLOv5 Head 详解:结构意义与自定义规则

这些数字绝对不是随便设置的。它们遵循严格的。

2026-05-14 15:00:42 377

原创 parse_model 函数的收尾部分,负责将计算好的参数实例化为真实的 PyTorch 层,并完成元数据的绑定和通道账本的更新

它把 YAML 里的“文字指令”变成了。

2026-05-14 14:59:06 460

原创 YOLOv5 的动态模型构建机制

这种设计的精妙之处在于,开发者只需修改配置文件中的缩放因子(gd, gw),就能在不改动任何代码的情况下,动态生成从 Nano 到 Large 等不同体量的模型。这是为了告诉模型,哪些层的输出在后续会被用到(例如在特征金字塔 FPN 结构中,深层特征需要与浅层特征 Concat)。它将一个抽象的“重复 9 次”的指令,根据当前的全局缩放比例,转换成了符合当前硬件算力要求的具体 PyTorch 层对象。这行配置的本意是:“在上一层的基础上,添加一个输出通道为 512 的 C3 模块,默认重复 9 次”。

2026-05-14 14:57:02 519

原创 BM25 + Embedding 混合检索 实现

我们做一个标准的:🔎 BM25(关键词召回) + Embedding(语义召回) + 融合排序。

2026-05-12 16:55:56 182

原创 RRF和Cross-Encoder rerank怎么实现

很好,这两个东西基本就是。我分开讲,并给你可直接用的实现方式。

2026-05-12 16:55:04 215

原创 alpha和r参数的区别

👉r 决定你“有多少本事”👉alpha 决定你“说话算不算数”👉r:学多少(容量)👉alpha:影响多大(强度)👉两者配合决定效果。

2026-04-14 17:22:47 44

原创 卷积层的in_channels和out_channels是怎么确定的,以及后一个和前一个输入是怎么确定的

这个问题其实是。

2026-04-13 11:43:04 205

原创 resnet的模型结构和block是什么样的,怎么对应到代码中的网络搭建

👉 ResNet代码 =block定义(结构) + make_layer(堆叠规则) + 主干拼接。

2026-04-13 11:42:13 160

原创 bert和LLM训练的时候输入输出的格式是什么有什么区别

👉 BERT =看全文 → 理解 → 输出表示/分类👉BERT 是“理解输入”👉LLM 是“生成输出”BERT:P(词 | 全上下文)LLM :P(下一个词 | 已生成词)

2026-04-10 11:04:27 189

原创 @property用和不用的区别

对比点不用 @property用 @property调用方式obj.x表现形式方法属性可读性一般更好封装性有,但不优雅更 Pythonic👉 不用@property:你在用“函数”👉 用了@property:你在用“属性”,但背后是“函数”

2026-03-20 11:38:20 249

原创 为什么 student 用 log_softmax

KL 散度公式要求PyTorch 接口规定数值更稳定梯度更合理避免重复 log工业界统一标准写法。

2026-01-22 15:50:36 743

原创 训练时,位置编码、Q、K 是怎么被优化成具有空间信息的?

(数学必然)

2025-12-11 17:32:57 565

原创 为什么为了让邻近位置得分高,必须满足:方向(Q1) ≈ 方向(K2),而且Multi-Head是怎么学到不同的几何关系的,如果我设置的head数量不同呢

要让 Q1 对 K2 的注意力分数更高,必须保证它们方向接近(数学上唯一可行)。

2025-12-11 17:32:15 789

原创 为什么加上位置编码后 patch 会有空间信息 需要解释一下

很多人以为:实际上理解这个问题,只需要搞清楚两件事:本质很简单:比如:加到 patch feature 上以后:现在每个 patch 的 embedding 都不同了,不仅包含内容,还包含位置。这一点非常关键:Transformer 的注意力更新公式:也就是说:于是注意力权重:会自动包含:举例:→ 注意力更容易连通它们→ 模型从注意力结构中学到“它们是邻居”→ 注意力连接更弱→ 模型学到“它们距离远”注意力矩阵逐渐学到 二维空间拓扑结构。你可能会问:原因是:✔ 注意力天然会把相邻 index

2025-12-11 17:31:12 722

原创 vit创建一组可学习的位置编码是怎么初始化的,怎么体现不同位置的

这已经在大量论文中可视化过 —— 位置编码的 PCA 会形成非常规整的 2D 网格。举例:Transformer 在训练时会学习任务(分类或对比学习)。Transformer 看到足够多的数据后会自动学出二维结构。Transformer 的 Q/K/V 是从。假设某个任务需要识别“猫在左边还是右边”。OpenCLIP/CLIP 的实现是。ViT 的位置编码本质上是。(不像卷积是 2D)。

2025-12-11 17:29:59 951

原创 多头和q,kv的区别

概念含义Q/K/VAttention 的基本向量(Query/Key/Value)多头(Multi-Head)使用多组 Q/K/V 并行地做注意力Q/K/V 是向量,多头是结构。← 最重要。

2025-12-11 17:26:39 308

原创 SSL证书是干嘛的,自己买了域名之后还需要做什么

SSL 证书让网站“安全、可靠、受信任”。

2025-12-04 10:14:01 338

原创 防火墙和端口的关系,以及服务器安全性是涉及哪些设置

下面我把讲清楚,然后给你一份。

2025-11-28 14:51:05 488

原创 服务器的端口有多少个,为什么是这个数量

服务器端口数量 =65,536 个由TCP/UDP 端口字段为 16 位决定分为 well-known / registered / dynamic 三类历史兼容性导致该标准永久固定。

2025-11-28 14:50:04 603

原创 <module> register_finder(pkgutil.ImpImporter, find_on_path) AttributeErro

Python 3.12 对应的 get-pip.py 是新版,兼容性是没问题的。pipx 是纯 Python 工具,用 conda-forge 安装最稳。所以 pip 在 Python 3.12 下直接崩了。仍然试图使用这些已移除的 API,因此无法运行。我可以一步步带你配置到可正常使用 Strix。如果成功,pipx 就能安装了。

2025-11-26 16:12:55 382

原创 self.args = types.SimpleNamespace(**self.cfg)

不用写 class,只需把字典展开。

2025-11-24 16:14:35 54

原创 ID3 算法为什么可以用来优化决策树

信息增益驱动:每次选择最能区分类别的特征,减少树的不确定性。贪心递归构建:快速生成高效结构,尽可能少的分支和深度。提前停止划分:避免冗余节点,提高分类效率。ID3 用“最优划分特征优先”的策略,让树更短、更准确、更高效。

2025-11-24 14:25:22 161

原创 图像解码优化

跑在 Python 层,被 GIL 限制,会严重拖慢并发。下面我给你,你可以直接选择适合自己的。

2025-11-17 15:42:23 378

原创 Qwen2大模型微调入门实战(完整代码)

https://zhuanlan.zhihu.com/p/702491999

2025-11-14 14:13:11 110

原创 大模型微调

非常好 👍你已经有(这点非常有优势),转向其实正是目前最有潜力的方向之一。下面我帮你系统梳理一下——的完整路线图,分为四个阶段讲清楚每个阶段该学什么、做到什么水平,以及可以如何结合你的已有技术栈。

2025-11-07 17:07:49 749

原创 项目下有多个模块,每个模块有pom文件,是怎么继承的

项目角色说明父 pom统一管理版本、插件、属性子 pom继承父 pom,声明自身依赖管理但不引入依赖<modules>声明子模块路径会构建所有模块,保证依赖顺序。

2025-11-05 16:20:19 476

原创 XGBoost的原理

初始化预测值(常数)计算梯度和二阶导寻找最优分裂点,生成新树更新预测值重复若干轮,直到损失不再下降XGBoost 是一种基于梯度提升(Boosting)的高效树模型,它通过一阶 + 二阶导数近似、正则化与并行优化,使得模型兼具速度、精度和泛化能力。如果你想更进一步,我可以帮你画一个图(流程图或残差拟合示意图)来直观理解“多棵树逐步修正误差”的过程,要不要我画一个?

2025-11-03 16:16:23 855

原创 pandas 有哪些特征工程常用的函数工具

在pandas是最常用的工具之一,它负责数据清洗、特征提取、特征转换等前置处理工作。

2025-11-03 15:45:20 337

原创 蓝绿部署的具体方式是怎么切换流量的

切换方式控制层切换速度零停机成本回滚难度负载均衡器切换网络层秒级✅高很容易应用层秒级✅中容易K8s Label服务编排层秒级✅中容易DNS域名层分钟级⚠️ 可能短暂中断低较慢。

2025-11-03 13:59:45 614

原创 重启nginx不会中断已经在请求中的连接的原理

非常好的问题。答案要分情况看,,取决于你“怎么重启”。

2025-11-03 13:55:52 481

原创 服务各部署的区别

名称一句话理解蓝绿部署“两套环境,切换指针”金丝雀发布“先让一小部分人试试看”滚动部署“逐台更新”灰度发布“渐进式上线,动态调整流量”

2025-11-03 13:52:07 490

原创 Agent 与 Workflow 的区别总结

🔹Agent = 智能决策与行动的单元(可思考、可执行)🔹Workflow = 多个 Agent 或工具的编排逻辑(执行路径固定或可配置)

2025-10-30 13:50:35 297

原创 pytorch框架常用的函数和张量处理方式

常用层# 激活函数F.relu(x)F.tanh(x)

2025-10-30 10:32:05 490

原创 vue项目中有的多个.env文件的配置

命令默认 mode加载文件.envproduction.envtest.env.env.testA.env.env.A.env.A以--mode A.env.env.local.env.A.local文件优先级最高,且默认会被.gitignore忽略(适合存放机密变量)。Vue CLI 的文件机制是可扩展的:除了默认的productiontest你可以用任意自定义模式(如.env.A.env.B),只要在命令中使用--mode A或--mode B。

2025-10-28 14:50:27 441

原创 为什么python服务需要设置host为0.0.0.0才能被外部访问,127.0.0.0不行

地址含义是否允许外部访问127.0.0.1仅监听本机 loopback 接口❌0.0.0.0监听所有网卡接口✅127.0.0.1= “只让我自己听”;0.0.0.0= “谁都能来听,但要我自己防护”。

2025-10-28 14:48:24 1377

原创 无代码编辑,只有彻底重写

我来为您翻译这个网页的内容。

2025-10-28 14:07:06 397

原创 基于大模型的中文问题英文答案的中问英答方案

这些模型在训练时大多数语料为英文,因此它们的输出语言自然倾向于英文。只要你再在提示词上“锁死”输出语言,就能实现稳定英文回答。WEBCPM:最近一个“中文问题”+“中文答案”但构造过程中参考了英文QA论坛。PsyQA:中文心理健康问答数据集(22,000个问题+56,000多答案)(这样即使模型在对话中遗忘系统规则,也会被本轮 prompt 拉回英文输出。MLQA:多语言抽取式问答基准数据,包含简体中文和英文。、且英文表达自然流畅的模型。即使模型能多语言理解,你仍需要。

2025-10-28 14:04:57 956

原创 Gunicorn + Flask 体系下精准区分两类超时来源(连接层超时和应用层超时)

Gunicorn + Flask 体系下精准区分两类超时来源:这类问题 Gunicorn 默认日志看不出来,我们需要通过日志+配置结合分析。下面是一份完整的实践指南👇Gunicorn 只有一种真正的“超时”:它监控的是:因此:如果日志中出现→ 请求已连接,但没被及时处理或卡在内部逻辑(应用层问题)。如果没有此日志但客户端报超时→ 请求可能根本没到 Gunicorn(连接层问题)。我们可以让 Flask 主动打印三个阶段:启动命令:分析逻辑:加上:日志格式(默认):分析方式:临时查看 TCP

2025-10-27 09:56:02 871

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除