shuyeah-CSDN博客

原创 YOLO v7网络结构

与YOLO系列的网络结构相似，包含三个部分：backbone主干特征提取网络、neck特征加强网络、yolo head预测网络。

2024-12-08 00:12:54 2187

原创基于Langchain和Qwen模型实现文本智能问答系统实现流程

对于医学文本结构化并实现智能问答模块，通过paddleOCR实现文本检测和识别，解析出结构化结果。引入Qwen2.5 7B模型实现智能问答功能。

2024-12-07 01:55:56 897

原创 Deepfake detection【Datawhale AI夏令营】数据增强方法

DataWhale DeepFake Detection Data Augmentation

2024-07-20 22:42:44 475

原创 OCR文本识别模型CRNN

OCR文本识别模型CRNN网络原理和代码

2024-05-07 23:56:57 1768

原创 Transformer(seq2seq、self-attention)学习笔记

decoder中的multi-head attention是带有masked,因为decoder的输出结果是一个一个输出的，训练decoder模型希望它能够根据已有的输出信息得到输出结果，decoder只能看到左侧的内容，不能看到右侧的内容。将encoder输出的k向量与decoder输出的q向量计算点乘，在将得到的结果与v向量做点乘，得到的向量结果再进行Fully connection操作。（2）指定一个分厂大的值作为输出序列的长度，知道输出END，只保留END之前的内容作为decoder的输出。

2023-12-29 23:42:36 1315

原创 Self-attention学习笔记（Self Attention、multi-head self attention）

self attention

2023-12-29 00:29:11 1508

原创 UNet、U²Net医学图像分割网络

对于医学图像的分割任务，这里使用UNet网络实现CT影响的病灶区域分割任务。记一篇学习笔记。

2023-12-21 00:13:09 840

原创 DBNet文本检测网络 (FPN、batch normalization、Transpose conv)

DBnet网络结构与相关技术

2023-12-19 20:41:19 3880

原创语义分割网络-FCN全卷积网络

语义分割全卷积神经网络结构

2023-12-05 21:59:03 1209

原创 BP神经网络计算过程

网络中神经元的理解神经网络是由大量的神经元相互连接构成。每一层的神经元之间通过权值连接。前一层的神经元经过加权计算和激活函数得到下一层神经元的值。反向传播的思想反向传播的思想：从输入神经元开始，利用上述神经元的计算方式计算出网络的输出，计算完了过输出和标签之间的偏差（损失），计算损失函数相对于每一个神经元的梯度，在梯度反向传播的过程中更新权值，不断迭代，直至收敛。前向传播和反向传播的过程前向传播：加权求和并通过激活函数计算。以sigmod激活函数为例sigmod(wx+b)反向传播过程：利

2020-12-06 20:28:47 3500

原创目标检测我好像明白了一个好久之前面试时候没回答上来的一个问题 - _-|||

我好像明白了一个好久之前面试时候没答上来的一个问题 - _-|||

2020-12-05 23:14:06 772

原创 YOLO系列算法----学习笔记

本文学习笔记整理自https://www.bilibili.com/video/BV1yi4y1g7ro?p=4参考博客：https://blog.csdn.net/qq_37541097/article/details/81214953YOLO V1、YOLO V2、YOLO V3论文链接提取码：a70x1、YOLO v1YOLO V1的思想将原始图片划分成s×s的网格（grid_cell），如果object的中心落在这个网格内，则这个网格就负责预测这个object。每一个网格预测b个bou

2020-10-24 12:01:12 1105

原创 focal loss 笔记

focal loss论文笔记首先focal loss解决的是one-stage目标检测算法中正负样本不平衡的问题。（极端前景和背景数量不平衡的问题）参考博客：Focal Loss理解

2020-09-14 17:46:38 280

原创 YOLO 目标检测网络学习笔记

YOLO v11、核心思想YOLO算法的核心思想是，将整张图片作为输入，利用网络的输出结果直接回归预测出bounding box的调整参数和物体所属类别。2、结构流程YOLOv1的整体结构流程是，对于一张输入的图片进行特征提取，输出的特征层可以看做把原始图片划分成s×s的网格，如果我替的中心点络在某一网格内则这个物体就由该网格负责预测。每一个网格有B个bounding box.除了需要预测Bounding box位置信息，还需要预测一个值confidence，这个值在faster CNN网络中是没

2020-08-31 11:35:53 2494 1

原创 Faster RCNN算法学习笔记----整体结构、RPN原理、Roi pooling层

Faster RCNN算法笔记1、FasterRCNN网络整体结构对于一张输入图片，将短边resize成600大小，输入到Faster RCNN特征提取网络中，提取出特征层feature map，将feature map输入到RPN网络中，生成一系列的候选框。RPN的核心思想是滑动窗口和anchor机制。将一系列的候选框输入到Roi pooling层中，利用候选框在feature map上进行截取，这些框转化成相同大小的section,最后通过全连接层进行分类预测和回归预测。而且，在训练的过程中，Fa

2020-08-28 18:04:08 750

转载卷积操作基础----笔记（一）

卷积操作参考博客：https://blog.csdn.net/Biyoner/article/details/889162471、卷积神经网络的核心思想https://www.zhihu.com/question/47158818/answer/670431317卷积神经网络的两大核心思想核心思想：局部连接、权值共享这两大思想的作用就是减少参数量，节省运算时间和空间。如何理解局部连接和权值共享。局部连接这种说法是相对于传统神经网络，用矩阵乘法来建立输入与输出关系的。每一个输出与每一个输入

2020-08-24 23:56:32 1058

原创 SSD目标检测算法--预测过程（解码）和训练过程（编码）

SSD目标检测网络1、SSD目标检测网络的整体结构SSD网络输入图片的大小为300×300×3，特征提取网络使用的是VGG16模型，提取到6个不同大小的特征层。特征层可以看做是把图片划分成不同的网格，每一个网格上对应有多个先验框。利用SSD网络的预测结果对先验框进行调整得到最后的预测框。 38×38每个网格对应4个先验框、19×19每个网格对应6个先验框、10×10每个网格对应6个先验框、5×5每个网格对应6个先验框、3×3×256每个网格对应4个先验框、1×1每个网格对应4个先验框。2、SS

2020-08-23 00:06:48 3688 1

原创 DenseNet论文学习笔记

DenseNet论文学习笔记论文链接：Densely Connected Convolutional Networks图片来自论文受残差网络(ResNet)的启发，在较深的网络中使用shortcut来提高模型的准确率，使训练更有效。原始的CNN网络，包含L个层，则有L个连接，在DenseNet网络中如果包含L个层，则有L×（L+1）/2个连接。DenseNet网络有以下优点减缓梯度消失增强特征传播特征重复使用大大减少参数量在引言中引用提到，已有的方法例如：ResNet、Highwa

2020-08-17 00:34:00 397

原创 Faster RCNN网络的预测过程（解码）和训练过程（编码）

Faster RCNN网络的解码过程和编码过程1、解码过程(预测过程)解码过程分为两部分：对先验框进行调整的解码过程对建议框进行调整的解码过程1.对先验框进行调整RPN网络的输出结果进行解码，对先验框进行调整得到建议框。首先提取原始图片的宽高、复制原始图片。把图片的较短边固定为600 大小，对图片进行resize操作，并且进行归一化预处理操作，将原始图片转化成numpy 的格式。在函数detection_out函数中将rpn网络的输出结果进行解码：首先通过置信度对先验框进行筛选；在函数中

2020-08-15 18:23:38 2536

原创 .jpg图片生成.mp4视频文件 python代码

一朵花从花蕊到开放大概4个小时左右。每隔10 min拍摄一张照片，一共25张照片。生成视频代码如下：import cv2import osdef get_file_names(search_path): for (dirpath, _, filenames) in os.walk(search_path): for filename in filenames: yield filename # os.path.join(dirpath, file

2020-07-30 00:23:12 3287 2

原创 SSD目标检测网络学习笔记--Tensorflow框架（附代码链接）

SSD目标检测网络SSD网络概述SSD网络将输入的图片resize成300×300的大小。用深度神经网络进行特征提取。得到不同大小的特征层（38×38×512，19×19×1024，10×10×512, 5×5×6, 3×3×256， 1×1×256）。每个特征层可以看做对图片划分成不同的网格，每个网格对应若干先验框。训练的过程是对先验框进行调整的过程。这6中不同大小网格，每一个网格对应的先验框的个数为：（4, 6, 6, 6, 4, 4）。计算得到一共需要计算先验框的个数为：38×38×4+

2020-07-29 20:23:33 836 1

原创 Faster RCNN目标检测算法的训练过程（附代码）（2）

Faster RCNN目标检测算法的训练过程本文代码来自https://github.com/bubbliiiing/faster-rcnn-kerasFaster RCNN网络的训练过程可分为两部分：1. 建议框网络的训练2. classifier模型的训练1、RPN网络的训练（1）预处理在train.py中，首先定义网络训练的参数。if __name__ == "__main__": config = Config() NUM_CLASSES = 3 # 训练50

2020-07-21 16:07:45 1422

原创 Faster-RCNN网络实现目标检测----pytorch

pytorch框架实现faster-RCNN网络https://blog.csdn.net/weixin_44791964/article/details/105739918代码来自：https://github.com/bubbliiiing/faster-rcnn-pytorch1 faster-RCNN网络概述Faster-RCNN是一种two-stage的目标检测方法，（与one-stage方法相比two-stage的目标检测方法检测精度高，但是速度较慢）Faster-RCNN网络对

2020-07-19 00:34:27 2029 1

原创梯度消失和梯度弥散现象形成的原因和解决方法

1 梯度消失和梯度爆炸产生的原因https://blog.csdn.net/yhily2008/article/details/80790476在神经其网络的参数训练过程中，BP(Back Propagation)算法非常重要。BP神经网络工作流程分两步：（1）正向传播输入信号，输出分类信息（对于有监督学习而言，基本上都可归属于分类算法）；（2）反向传播误差信息，调整网络的权值（通过微调网络参数，让下一轮的输出更加准确）。基于loss函数反向微分调参（链式求导的方法），寻求最优解。隐藏层中的激活函

2020-07-09 00:25:52 4145

空空如也

空空如也