- 博客(9)
- 收藏
- 关注
原创 面试八股文
不止于大模型,在大多数场景下,基座模型可以实现大部分的功能,但是存在特定的场景需要对模型进行调整,如在llm2sql时,需要对特定数据库进行一个sql语句构成进行微调,使得模型能够实现得到我们想要的规定的输出(减少幻觉),另外在ocr识别或者vllm的对于固定格式的发票或者其他文件进行快速识别,需要对模型进行微调的处理。
2026-02-25 11:06:03
291
原创 yolov5s改进之注意力机制的添加
核心步骤:在common.py中实现注意力模块(如CBAM)→ 修改配置文件,插入模块到关键位置 → 验证模型加载 → 正常训练;关键注意点:插入模块后要同步调整yaml中Neck部分的from索引,确保特征拼接的索引正确;效果优化:可根据自己的数据集调整注意力模块的插入位置和数量,优先在高通道数特征层添加,平衡精度和速度。
2026-01-20 10:08:11
521
原创 常见激活函数
TanhTanh,中文名叫双曲正切函数,它是由双曲正弦函数sinh和双曲余弦函数cosh相除得到的:Tanh和sigmoid的函数曲线形状有些类似,但tanh具有0中心对称性。
2025-10-29 16:23:59
876
原创 深度学习知识总结
Neural Networks,简称NN。针对机器学习算法需要领域专家进行特征工程,模型泛化性能差的问题,提出了NN可以从数据的原始特征学习特征表示,无需进行复杂的特征处理。数据以输入的形式为每个节点提供信息。该节点将输入与随机权重相乘,计算它们,并添加一个偏差。最后,非线性函数,也称为激活函数,被用来确定哪个神经元激活。神经网络的结构类似于人脑,由人工神经元组成,也称为节点。这些节点分为三层并排堆放:输入层、隐藏层、输出层。其原理可以使用线性回归理解:y=Wx+by=Wx+by=Wx+b。
2025-10-27 22:44:49
241
原创 机器学习面经
交叉熵的值越小,说明预测值与真实标签的差距越小,模型的性能越好。线性回归的核心是构建线性模型,即假设目标变量y与自变量x之间存在线性关系,用线性方程y = w1x1 + w2x2 + ... + wnxn + b来表示,其中w1、w2、...、wn是自变量的系数,b是截距。线性回归的目标就是寻找最优的系数和截距,使得模型预测值与真实值之间的误差最小化,常用的误差指标是均方误差(MSE)。在二分类问题中,逻辑回归输出的是一个0~1之间的概率值,表示样本属于正例的概率,因此可以根据设定的阈值将样本分为两类。
2025-10-13 21:29:22
228
转载 Tacotron
也就是把卷积层输出的和embeding之后的序列相加起来。encoder模块主要是为了得到输入文本的一个很好的表示,encode的输入是将文本转换为one-hot向量,然后经过一个pre-net的网络结构,接着讲pre-net网络的输出输入到CBHG模块中,最后从CBHG中输出的就是输入的text的一个健壮的表示序列。注意:由于每个字符在发音的时候,可能对应了多个帧,因此每个GRU单元输出为多个帧的音频文件,paper上说在decoder的每一步时,不仅仅预测1帧的数据,而是预测多个费重叠的帧。
2025-01-04 00:38:59
370
原创 unet医学
在编码器和解码器之间,UNet还引入了跳连机制,将编码器中相应层的特征与解码器相应层的特征进行连接,以帮助保留更多的空间信息和细节特征。将神经元细胞的纹理作为前景,其它作为背景。# 裁剪时,先计算e与d在高和宽方向的差距diffY和diffX,然后对e高方向进行裁剪,具体方法是两边分别裁剪diffY的一半,编码器使用卷积层和池化层来逐渐减小特征图的尺寸和维度,同时增加特征图的通道数,以便提取输入图像的高级别特征。# e是来自编码器部分的特征图,d是来自解码器部分的特征图,它们的形状都是[B,C,H,W]
2025-01-04 00:24:57
1001
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅