泷ovo-CSDN博客

原创面试八股文

不止于大模型，在大多数场景下，基座模型可以实现大部分的功能，但是存在特定的场景需要对模型进行调整，如在llm2sql时，需要对特定数据库进行一个sql语句构成进行微调，使得模型能够实现得到我们想要的规定的输出(减少幻觉)，另外在ocr识别或者vllm的对于固定格式的发票或者其他文件进行快速识别，需要对模型进行微调的处理。

2026-02-25 11:06:03 291

原创 yolov5s改进之注意力机制的添加

核心步骤：在common.py中实现注意力模块（如CBAM）→ 修改配置文件，插入模块到关键位置 → 验证模型加载 → 正常训练；关键注意点：插入模块后要同步调整yaml中Neck部分的from索引，确保特征拼接的索引正确；效果优化：可根据自己的数据集调整注意力模块的插入位置和数量，优先在高通道数特征层添加，平衡精度和速度。

2026-01-20 10:08:11 521

原创常见激活函数

TanhTanh，中文名叫双曲正切函数，它是由双曲正弦函数sinh和双曲余弦函数cosh相除得到的：Tanh和sigmoid的函数曲线形状有些类似，但tanh具有0中心对称性。

2025-10-29 16:23:59 876

Neural Networks，简称NN。针对机器学习算法需要领域专家进行特征工程，模型泛化性能差的问题，提出了NN可以从数据的原始特征学习特征表示，无需进行复杂的特征处理。数据以输入的形式为每个节点提供信息。该节点将输入与随机权重相乘，计算它们，并添加一个偏差。最后，非线性函数，也称为激活函数，被用来确定哪个神经元激活。神经网络的结构类似于人脑，由人工神经元组成，也称为节点。这些节点分为三层并排堆放：输入层、隐藏层、输出层。其原理可以使用线性回归理解：y=Wx+by=Wx+by=Wx+b。

2025-10-27 22:44:49 241

原创机器学习面经

交叉熵的值越小，说明预测值与真实标签的差距越小，模型的性能越好。线性回归的核心是构建线性模型，即假设目标变量y与自变量x之间存在线性关系，用线性方程y = w1x1 + w2x2 + ... + wnxn + b来表示，其中w1、w2、...、wn是自变量的系数，b是截距。线性回归的目标就是寻找最优的系数和截距，使得模型预测值与真实值之间的误差最小化，常用的误差指标是均方误差（MSE）。在二分类问题中，逻辑回归输出的是一个0~1之间的概率值，表示样本属于正例的概率，因此可以根据设定的阈值将样本分为两类。

2025-10-13 21:29:22 228

原创 linux面经

linux

2025-01-18 22:17:26 294

转载 Tacotron

也就是把卷积层输出的和embeding之后的序列相加起来。encoder模块主要是为了得到输入文本的一个很好的表示，encode的输入是将文本转换为one-hot向量，然后经过一个pre-net的网络结构，接着讲pre-net网络的输出输入到CBHG模块中，最后从CBHG中输出的就是输入的text的一个健壮的表示序列。注意：由于每个字符在发音的时候，可能对应了多个帧，因此每个GRU单元输出为多个帧的音频文件，paper上说在decoder的每一步时，不仅仅预测1帧的数据，而是预测多个费重叠的帧。

2025-01-04 00:38:59 370

原创 unet医学

在编码器和解码器之间，UNet还引入了跳连机制，将编码器中相应层的特征与解码器相应层的特征进行连接，以帮助保留更多的空间信息和细节特征。将神经元细胞的纹理作为前景，其它作为背景。# 裁剪时，先计算e与d在高和宽方向的差距diffY和diffX，然后对e高方向进行裁剪，具体方法是两边分别裁剪diffY的一半，编码器使用卷积层和池化层来逐渐减小特征图的尺寸和维度，同时增加特征图的通道数，以便提取输入图像的高级别特征。# e是来自编码器部分的特征图，d是来自解码器部分的特征图，它们的形状都是[B,C,H,W]

2025-01-04 00:24:57 1001

qq_52370005的博客