自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 013 CLIP

我有个理解:x在经过卷积后,conv1调整了通道(可能是减少通道数),conv2做了卷积操作(stride和padding为1,这里不改变特征图的尺寸),conv3将通道改为输出通道数;另一边,在shortcut里面,如果通道数不匹配(输入和输出数量不同)或者尺寸改变(如果做了池化stride),那么则downsample调整x为identity来匹配卷积输出的通道数和尺寸。(或叫做"stem block")指的是模型中用于处理输入数据的第一部分,通常是一个由卷积层、池化层等组成的初步特征提取模块。

2024-11-07 18:02:03 249

原创 013 ViT:Vision Transformer

捋完Transformer之后,再看看 Vision Transformer。

2024-11-06 17:40:14 408

原创 cnn的通道理解

总结:每个卷积核会和每个通道做卷积,然后这些特征图元素相加。也就是说有几个卷积核,就会有几个输出通道。

2024-11-06 16:25:07 136

原创 008 《Attention is all you need》和Transformer记录

提要:读论文感觉很乏味,主要是迷迷糊糊,还是直接看源码理解更容易懂。

2024-11-05 18:23:34 294

原创 012 nn.Linear (哎呀先记着)

PyTorch 中的一个线性变换层,也被称为或 仿射变换(Affine Transformation)。它的主要作用是对输入张量进行线性变换,即计算加权和,并加上一个偏置。。

2024-11-05 17:00:10 231

原创 011 matplolib绘图

【代码】009 matplolib绘图。

2024-11-04 15:43:27 244

原创 009 vscode连接远程服务器

运行 passwd 命令:passwd。

2024-11-04 14:25:16 102

原创 010 ResNet的原理和代码理解

假设解决方案:构造一个deeper model,这个model多增加的层是一个identity mapping,不会增加training error,但是现有方法找不到这样一个方案。所以现在希望stacked layers = identity mapping H(x),但是推导这个等式太难,选择推导残差F(x)为0。在深度学习中指的是一个特殊的映射,它的输出与输入相同。提要:这个是一直都会接触到,但是一直没彻底搞明白这个原理和论文。residual:剩余或者残差,观测值和预测值之间的差异。

2024-11-01 17:55:40 191

原创 李宏毅course 002 机器学习和深度学习

时间:10.31-machine learning = 找到一个函数。

2024-10-31 23:32:06 238

原创 李宏毅course 001:机器学习课程大纲

tip:学习,应该是一个随时可以开始的事情,不要给这个设置太多门槛,需要打开很多app之类course:15讲,作业提要:主要是对整体课程做一个大致的介绍时间:10.31。

2024-10-31 22:31:47 363

原创 007 论文:Restormer: Efficient Transformer for High-Resolution Image Restoration

从大规模数据中学习图像先验:通过对大量图像数据的训练,使得卷积神经网络(CNN)能够提取和掌握一些图像的基本特征和规律,这些特征在不同的图像中可能会重复出现。Transformer架构在自然语言处理和高层次视觉任务中的显著性能提升。虽然Transformer模型克服了卷积神经网络(CNN)的局限性(如感受野有限和对输入内容的适应性差),但其计算复杂度随着空间分辨率的增加而呈二次增长。这使得在涉及高分辨率图像的图像修复任务中应用Transformer变得不可行。

2024-10-31 11:29:24 839

原创 006 图像处理

灵感:论文 Deep learning techniques for estimation of the yield and size of citrus fruits using a UAV。cv2.inRange():设定RGB颜色上下界阈值,这样可以从图像中提取自己需要的颜色模块,保留像素面积为白色(255),其余为黑色(0);RGB image:3 channel * 8 bit = 24位;灰度图:只有一个8位通道,相比之下占用存储空间更小;

2024-10-30 09:29:48 99

原创 005 水果尺寸估计

RGB image 转化为灰度图 —— 去噪:高斯平滑和中值模糊 —— 用RGB阈值处理image,白色部分为想要的像素面积,黑色为舍弃 —— 标注轮廓,定位坐标 ——水果近似圆形,按照ratio和直径求面积。原文位置:2.7. Image processing to estimate the fruit size。在每张图片计算木尺的像素数量就可以按照这个ratio估计水果大小。每像素面积 ratio=0.013:约等于实际面积 / 像素面积。tip:这个使用无人机拍摄,没有/不用考虑拍摄点的偏差?

2024-10-30 09:20:53 153

原创 004 R-CNN

简单记录一下网络

2024-10-22 10:48:23 317

原创 003 Pytorch常用代码

主要记录一些自己在项目中常用的pytorch代码功能

2024-10-20 15:02:30 139

原创 001 卷积的初步理解

参考链接:https://mp.weixin.qq.com/s/f3HESCIBBN6ADRM53x3Jrg。

2024-10-08 23:29:33 125

原创 002 记录linux服务器安装环境

(1)找到对应的GPU版本(主要是cuda版本)(还包括附属的torchaudio和torchvision)(3)conda list查看是否已经替换掉。第二步:安装pytorch(cpu版本), cd 到下载的文件目录,安装。第三步:手动安装gpu版本。第一步:激活目标环境。

2024-08-21 17:22:41 283

原创 将软件下载到目标位置

3、(英文输入状态下)输入 "安装包名" /D="你想要安装的路径"2、在地址栏输入cmd后回车。1、找到exe文件处。

2024-05-26 19:07:11 175

原创 word记录

如何将Visio制作的图片导入到Word论文稿中 - 知乎 (zhihu.com)

2024-04-19 19:58:24 277 1

原创 记录visio激活

激活文件在本地:skill。

2024-04-18 21:05:06 368

原创 Python和Pycharm、vscode

python卸载找到要卸载的python,启动应用程序查看python版本; 下载对应版本的安装包,启动卸载程序;pycharm安装使用安装pycharm; 在setting的project的python interpreter选择anaconda文件夹下对应的环境;

2023-11-29 11:18:23 222

原创 李沐深度学习——配置

Anaconda 是专门为了方便使用 Python 进行数据科学研究而建立的一组软件包,涵盖了数据科学领域常见的 Python 库,并且自带了专门用来解决软件环境依赖问题的 conda 包管理系统。主要是提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。

2023-11-18 17:21:55 903 1

原创 项目学习的小知识点

UUID.randomUUID().toString()是javaJDK提供的一个自动生成主键的方法。方法:UUID.randomUUID().toString()

2023-11-18 17:11:40 37 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除