开始慢慢练习-CSDN博客

原创大模型知识汇总、学习路线

Transformer/Decoder-only 结构是一个。

2026-03-06 15:42:33 367

翻译 IBM企业挑战赛- Ilya Rice 冠军方案

本文介绍了基于RAG框架的年度报告自动问答系统设计方案。系统通过文档解析、知识库构建、智能检索和增强生成四个关键环节实现高效问答。

2026-03-06 15:37:08 18

原创深度学习常用的损失函数Loss Function

损失函数（Loss Function）是深度学习中至关重要的组成部分，它衡量模型预测结果与真实标签之间的差异，是模型优化的目标。

2025-10-30 19:23:09 411

损失函数Iou->GioU->DioU(+计算预测框和真实框的中心点欧氏距离/覆盖框的对角线距离)->CIoU(重叠面积、中心点距离、实际长宽比)批归一化（BN）对每个批次的输入数据进行标准化（均值为 0，方差为 1），并通过可学习的参数（γ 和 β）恢复数据的表达能力。Head输出值225：na*(nc+5)(x,y,w,h,置信度) + 80(80个类别的条件概率)正样本分配IOU损失计算-GT和候选框IOU，TOP-K，动态筛选(所有IOU和，取整为保留个数)(3)计算类别预测损失。

2025-09-16 15:24:35 734

原创深度学习环境配置问题汇总

conda虚拟环境安装cudatoolkit无效，因为conda虚拟环境中安装的cuda是精简版的cuda保持基本的服务，但缺少执行编译的头文件；需要在系统中安装的完整的cuda toolkit。vim pip修改路径配置data/miniconda3/envs/your_env_name/bin/python，解决。选择自己的docker容器，再新窗口打开，稍作等待即可连接，方便修改文件，代码等。选择Dev Containers，可以看到宿主机上的所有docker容器。复制文件：宿主机上运行。

2025-09-05 15:39:19 333

原创场景文本检测模型DPText-DETR代码解读（三）

整套代码依赖Detectron2库。

2025-09-05 15:34:09 428

原创场景文本检测模型DPText-DETR训练自己的数据集（二）

建议使用 Anaconda 配置环境。推荐 Python 3.8 + PyTorch 1.9.1（或 1.9.0）+ CUDA 11.1 + Detectron2 (v0.6)。按照readme.md安装，在运行python setup.py build develop之前没出现问题；编译时可能缺少部分所需头文件，查找原因是cuda环境路径问题，因实验室电脑不方便安装指定cuda，转向docker配置。docker中编译时，有两个包numba，rapidfuzz版本不对，安装合适版本后编译完成。

2025-09-03 14:18:50 1023

原创场景文本检测模型DPText-DETR学习（一）

场景文本检测因其在场景理解、图片检索等应用中具有重要价值，受到了广泛的研究关注，相比于通用目标检测，场景文本的特殊性（比如多变的文字样式与任意形状）带来了别样的挑战。

2025-09-01 21:20:28 1086

原创 Pytorch分布式数据并行-DDP

举个例子：我有两台机子，每台8张显卡，那就是2x8=16个进程，并行数是16。但是，我们也是可以给每个进程分配多张卡的。

2025-03-18 17:30:02 1676

原创卷积神经网络CNN、循环神经网络RNN和LSTM

卷积神经网络在最基本的形式上可以看作是一种使用许多相同神经元副本的神经网络。这使得网络可以拥有大量神经元并表达计算上庞大的模型，同时保持需要学习的实际参数（描述神经元行为的值）的数量相对较小。卷积神经网络最著名的成功之一就是将 2D 卷积神经网络应用于图像识别。(图像、视频领域)

2025-03-17 17:17:45 2189

原创大模型知识-提示工程(Prompt Engineering)

1).获得具体问题的具体结果(这个比较好理解，可以在ChatGPT、DeepSeek等模型提供的平台上直接完成，更好的提问范式获得更好的结果)；没有特殊说明就只能多多尝试。2).固化一套prompt到程序中，成为系统功能的一部分(比如完成一个"AI客服系统"，"基于一个知识库的问答"等)。1.让AI生成更多相关的内容，构成更丰富的"上文"，从而提升"下文"正确的概率。把输入的自然语言对话，结构化表示，生成策略，把策略转化为自然语言输出。减少幻觉：通过中间步骤约束模型的联想范围，避免直接生成未经推理的答案。

2025-03-11 13:40:06 2115

原创 Pytorch简单指令学习，为什么深度学习需要torch tensor而不是numpy array？简单的线性回归模型

具体来说，PyTorch 会构建一个计算图，其中包含应用于该张量的所有操作，这样就可以使用反向传播算法自动计算相对于损失函数的梯度。PyTorch 中的 Tensor 和 numpy 的最大区别就是，Tensor 在进行计算时会自动构建计算图。除了计算图，PyTorch 的 Tensor在底层做了许多优化，特别是在大规模数组计算时。Tensor 的每种运算都实现了对应的梯度计算函数，这在实现时需要考虑 GPU 的适配以及性能优化。相比之下，numpy 并没有这样的自动化功能，完全依赖于手动计算。

2025-03-05 19:33:28 537

原创 YAML格式配置文件和agrparse模块的学习

yaml配置文件和agrparse函数学习

2025-02-27 14:47:18 558

2301_77750456的博客