自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(307)
  • 收藏
  • 关注

原创 attention and tell论文【无标题】

​it​ft​ot​ct​​​​σσσtanh​​TDmnn​​Eyt−1​ht−1​xt​​​​it​ft​ot​ct​​​​σσσtanh​​TDmnn​​Eyt−1​ht−1​zt​​​这几个公式使用LaTeX语法表示为:eti​fatt​xi​ht−1​4αti​∑k1L。

2024-04-15 14:41:13 1163

原创 画图【无标题】

print(torch.cuda.is_available()) # cuda是否可用。print(torch.version.cuda) # cuda版本。LD_LIBRARY_PATH该设置为什么。换了个更高版本的torch。

2024-04-15 14:40:33 503

原创 好好开始文生图

基于transformer以前UNET架构,基于卷积,现在把卷积换成transformer数据更少,文本数据就要更优质训好了,通过增加额外模块,提高文本质量如果给的文本时粗粒度的,那么生成的图片,额外信息,随即补全按类别引导,而不是按文本引导?衡量图像文本对的匹配程度重参数技巧Σ:VAE提高分辨率压缩QKV三个阶段,灾难遗忘前面用简单的数据,后面用好一点的数据高质量评估数据集文本编码器的语义理解能力不足,导致编码得到的特征不完全。

2024-04-15 14:39:27 298

原创 Linux命令、代码【无标题】

按下win+r打开运行,输入 regedit回车进入注册表:计算机\HKEY_CURRENT_USER\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\MyComputer\NameSpace"子项"。看子项里的值和数据,如有“C盘瘦身专家“删除,之后再在注册表搜索“C盘瘦身专家“把搜索到的项目删除就行了。其中,“z”表示使用 gzip 解压缩,“x”表示解包.gz解压命令 linux,“f”表示指定要解包的文件名。

2024-04-15 14:38:00 166

原创 狂补基础知识(基础数学\DDPM入门)【无标题】

高斯分布(也称为正态分布)的概率密度函数(Probability Density Function, PDF)是用于描述随机变量在连续空间上各个取值点的概率密度的函数。其数学表达式如下:f(x)=12πσ2⋅e−(x−μ)22σ2f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \cdot e^{-\frac{(x - \mu)^2}{2\sigma^2}}f(x)=2πσ2​1​⋅e−2σ2(x−μ)2​其中:概率密度函数值的含义:概率密度(Probability Density)

2024-04-15 14:37:03 908

原创 贝叶斯公式及其推导(文生图LDM,【数学基础】)

该定理是基于条件概率的规则来计算事件A在已知事件B发生的条件下发生的概率,即后验概率P(A|B),它可以由先验概率P(A)、似然度P(B|A)以及B事件本身的概率P(B)来确定。综上所述,正态分布的线性变换保持正态分布特性的原因在于正态分布本身的内在属性允许其通过线性操作后仍能保持相同的分布形态,仅仅是将分布的位置(通过均值移动)和尺度(通过标准差放大或缩小)做了相应的改变。是边际概率或者证据概率,是在只知道信息 I 的情况下,事件 B 发生的概率,它起到归一化的作用,确保后验概率是一个有效的概率分布。

2024-04-15 14:35:46 829

原创 狂补基础知识(基础模块)【无标题】

你需要搭建一个网络模型来完成一个特定的图像分类的任务。首先,你需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当你觉得结果很满意的时候,你就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是 pre-training。之后,你又接收到一个类似的图像分类的任务。这时候,你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数,然后在训练的过程中,依据结果不断进行一些修改。

2024-04-15 14:34:52 808

原创 如何判断自己的电脑里有没有cuda以及查看cuda版本

而运行 CUDA 应用程序需要系统至少具有一个支持 CUDA 的显卡和CUDA工具包兼容的驱动程序,这些工具包括 CUDA SDK、 CUDA Studio、 CUDA Testing Kit、 CUDA Software Development Kit、 CUDA Developer Kit、 CUDA Package Kit 和 CUDA Enterprise Toolkit 等,每一种都具备了强大的功能。1、在电脑桌面,鼠标右键点击此电脑,选择“属性”。2、然后在弹出的对话框中点击“设备管理器”。

2024-02-20 18:10:14 3180 3

原创 为后端做准备

ArgumentParser 中最重要的方法是 .add_argument(),它有几个变体。如果是从前端上传的zip,只想将解压后的文件夹存在服务器中,那么先解压再保存(保存之后才存在文件路径),可以将前端输入的zip文件。经典的 Unix 命令秉承了“一次只做一件事,并做到极致”,但现代的趋势把“几个密切相关的操作”放在一起。argparse 模块是一个强大的命令行参数解析器,还有很多功能没能在这里介绍。args= parser.parse_args(“从命令行传入的参数”.split())

2024-02-05 22:16:34 2889

原创 【初读论文】

RoI(Region of Interest)是通过不同区域选择方法,从原始图像(original image)得到的候选区(proposal region)。需要注意的一点是RoI并不等价于bounding box, 它们可能看起来像,但是RoI只是为了进一步处理而产生的候选区域。从数据开始,到模型,损失函数,优化算法到训练循环,推理输出一条龙服务。我觉得可以理解pipeline为“流程”,它主要描述了数据是如何在节点之间流动的。在计算机视觉领域,从输入的图像中框选处理待处理的区域就是ROI。

2024-02-05 21:40:45 845

原创 一些运行指令_无用草稿

【代码】一些运行指令_无用草稿。

2024-02-05 21:40:28 361

原创 【部署大模型的准备工作】

有个参数改成下载token的模型。先从huggingface官网。下载所需要的Bert模型(搜索。

2024-02-05 21:39:41 1610

原创 【无标题】安装环境

这个文件夹复制到搜寻的路径(安装的包就是一个文件夹嘛)TT,查到是 anaconda3/envs/masktextspotter/lib/python3.8/site-packages,放到这个路径下,好像没再报错了,但可能这个文件夹就没安装成功,是错的。omitting directory XXX 错误。训练语料库只含少量中文数据,论文中写到将其忽略。好像不管什么版本 -f 后面接的都是一个网址。没用,继续报错TT TT。不可以,一直在解析环境。检测中文时出现以下错误。一堆报错,报错找不到。

2023-12-09 14:55:04 1146

原创 关于python一些惯用写法、语法、文件读取

对于很多编程语言来说,程序都必须要有一个入口,比如 C,C++,以及完全面向对象的编程语言 Java,C# 等。但和C,C++、Java 以及 C# 等有所不同的是,Python属于脚本语言,不像编译型语言那样先将程序编译成二进制再运行,python是动态的逐行解释运行,也就是。== ‘__ main__’ 所在模块是被直接运行的,则该语句下代码块被运行,如果所在模块是被导入到其他的python脚本中运行的,则该语句下代码块不被运行。1、3说的可能不太对,但总归是一样的值,打印出来根本不是。

2023-12-06 17:02:23 395

转载 【了解detectron2框架】(我哭死TT,原博主写得太好了,全程感动感激涕零)

加载部分首先读取命令行给出的参数,读取关键的权重以及网络配置信息,并得到一个参数对象;紧接着生成一个logger;接下来将命令行参数与大量的默认参数进行合并,生成最终的网络配置;最后,判断硬件环境选择GPU还是在CPU,然后在硬件上根据配置文件生成并初始化检测器对象并返回。这样就得到了这个检测器对象,如果我们已知了输入的类型,实际上可以直接调用这个对象生成预测,就像上面的例子代码那样。

2023-12-06 17:00:33 358

原创 detectron2中save_text_instance_predictions⭐

除了使用 json.dump() 方法直接将 Python 对象写入到文件中,我们还可以使用 json.dumps() 方法将 Python 对象序列化为 JSON 字符串,然后将其写入文件。在这个示例中,我们首先使用 json.dumps() 方法将 Python 字典对象 data 序列化为 JSON 字符串,然后使用文件对象的 write() 方法将其写入文件 data.json 中。上述代码将创建一个名为data.json的JSON文件,并将data字典对象写入文件中。,然后将其写入文件。

2023-12-06 16:34:37 924

原创 安装错误_ImportError: cannot import name ‘XXX‘循环引用 绕晕TT(deepsolo)

显然,有两个module,一个是adet.evaluation,一个是adet.evaluation.text_evaluation_all。主要就是这条语句出错,看了一下 rapidfuzz的_init_ .py文件,根本没有string_metric这个函数或者是什么别的东西。学到的,import的可能是个py文件,逐层import, 最终应该是某个py文件里的function。这样可以避免,导入text_eval_script.py两个文件,真正的错误在这两个文件里,

2023-12-03 21:53:32 1562 1

原创 【无标题】parseq

一堆乱七八糟。

2023-12-03 21:52:44 408 1

原创 【无标题】mmocr在云服务器上

原文链接:https://blog.csdn.net/Charles5101/article/details/108213002。如果自己已经下载到服务器某个文件夹,直接cd到这个文件夹就好,cd进这个文件夹,再pip 各种当前路径文件夹下的txt。conda create -n pytorch python=3.8 (pytorch 是我自己取的名字)copied_env_name即为被复制/克隆环境名。new_env_name即为复制之后新环境的名称。1) 显示安装过的所有虚拟环境。

2023-12-01 20:45:08 1146

原创 MobaXterm连接相关、Linux服务器上安装Anaconda

其实最终解决的方法,还是,因为要远程连接的是个局域网ip,我所在的ip和要连接的这个不在同一个局域网内,需要实验室搭的VPN才行。甚至,我连防火墙都没关,也可以连接至于修改密码,passwd,要求输入两边current passward,但是网不好还是什么原因输入不了密码,直接通过mater passward显示用户密码直接在可视化界面修改的。

2023-12-01 13:09:17 1662 1

原创 【无标题】读DETR

问题:detr每次都会出100个输出,但是实际上一个图片的GT的bounding box可能只有几个,如何匹配?如何计算loss?怎么知道哪个预测框对应GT框?转化为。

2023-12-01 13:09:11 880

原创 【无标题】读transformer

编码器和解码器的架构 处理一个序列对纯基于注意力,selfattention,没有RNN*在论文里面同样贡献序列转录,给一个序列生成另一个序列传统 依赖于循环或者卷积神经网络,dispensing with 免除,不需要indispensable 不可或缺的BLEU score机器翻译里大家经常用到的衡量标准一开始用在 机器翻译 比较小的领域。

2023-11-30 15:23:34 955

原创 OCR常用数据集_看数据集区分可识别语言

最后,我们从剩余图像中随机抽取一个子集来构建我们的数据集。HierText 图像具有更高的分辨率,其长边限制为 1600 像素,而之前基于 Open Images [22,48] 的数据集限制为 1024 像素,从而产生更清晰的文本。该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。Total-Text 是一个数据集, 其中包含各 种形状的文本, 包括水平的,多取向的和弯曲的. 这 3 个数据集包含了中文和英文的数据集共 6 万张, 用于 文字检测和识别。

2023-11-27 19:43:54 1978

原创 【无标题】动手学深度学习_现代神经网络_未完

(2) 然后把输入x通过修改后的网络前向传播,然后把得到的损失结果通过修改的网络反向传播。对一小批训练样本,先前向传播然后反向传播损失并根据随机梯度下降法更新参数(w,b) (没有被删除的那一部分参数得到更新,删除的神经元参数保持被删除前的结果)。相比于lenet的average pooling,这里用maxpooling,使得输出值更大,梯度相对更大,训练比较容易一点。11,16,19指的是 含有可训练参数的层的总数,也就是不包括激活层,池化层这种不含训练参数的层。Dense层就是所谓的全连接神经网络?

2023-11-27 19:43:08 823

原创 数据集的标签文件【无标题】

json格式的数据在解析到Python中数据结构也会发生相应的变化,解析前后json与Python数据结构的对应关系如下。.json是用来存储简单的数据结构和对象的文件。json是一种轻量级的数据交换格式。接下来再就是对字典操作了。.json的本质是字典。

2023-11-27 19:42:14 394

原创 Google Colab下运行的环境配置

colab运行alexnet。

2023-11-24 08:55:52 754

原创 找论文找论文

原文链接:https://blog.csdn.net/qq_44826240/article/details/128240883。总结一下:端到端的学习其实就是不做其他额外处理,从原始数据输入到任务结果输出,整个训练和预测过程,都是在模型里完成的。顶会的论文集:https://openaccess.thecvf.com/menu。dblp.org官网下载会议中的论文: https://dblp.org/,也能显而易见,不知道哪个才是最常用的,亦或是别的。论文下载网址:https://arxiv.org/

2023-11-23 19:07:44 898

原创 Colab跑项目

运行train.py下载的是yolov5-v5版本1、把模型文件的压缩文件上传到colab2、!unzip /content/yolov5-5.0.zip解压缩3、%cd /content/yolov5-5.0转移到当前文件夹4、!pip install -r requirements.txt安装所有需要的库5、打开画学习曲线的tensorboard工具所有的训练loss等结果都会记录在tuns/train的文件夹中6、运行!

2023-11-20 13:46:36 284

原创 Yolov5

anchor字面意思是锚,是个把船固定的东东(上图),anchor在计算机视觉中有锚点或锚框,目标检测中常出现的anchor box是锚框,表示固定的参考框。传统非深度学习方法和早期深度学习方法,都要金字塔多尺度+遍历滑窗的方式,逐尺度逐位置判断"这个尺度的这个位置处有没有认识的目标",这种穷举的方法非常低效。,如在Faster R-CNN和SSD两大主流目标检测框架及扩展算法中anchor都是重要部分。最近SOTA的目标检测方法几乎都用了anchor技术。1.Anchor是啥?通过手机电脑摄像头检测。

2023-11-18 22:39:16 372

原创 Yolov5安装运行过程中出现的问题

一般情况下,项目提供者会在 requirements.txt 文件中列出所有项目所依赖的 Python 包及其版本号,使用这个命令可以方便地安装这些依赖并满足项目运行的需要。这个命令会自动安装依赖的 Python 包,如果依赖的包已经安装了,或者是已经安装了版本符合要求的包,则不会进行重复安装。附上下载链接:https://github.com/ultralytics/yolov5/releases/download/v5.0/yolov5s.pt。这种方法适用于需要强制退出Python程序的情况。

2023-11-18 21:34:22 588

转载 一些常用shell命令

grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回0,如果搜索不成功,则返回1,如果搜索的文件不存在,则返回2。连续使用管道意味着第一个命令的输出会作为第二个命令的输入,第二个命令的输出又会作为第三个命令的输入,依此类推。现在基于linux开发横行,互联网产品后台基本都是基于linux,android,mac,到处都是linux,所以,作为一个与时俱进的测试,不熟悉linux是不行的,记录一下测试中常用的一些shell命令。这些选项可以组合使用。

2023-11-18 14:37:12 68

原创 【无标题】函数参数列表

reshape函数的本质我觉的就是view函数+contiguous函数。

2023-11-18 10:59:21 47

原创 多通道输出交叉相关

2、多通道输出(三通道输出,三种卷积核,对应不同的识别特征)多通道输入 (样例中为2通道输入)

2023-11-17 20:58:34 26

原创 基础框架代码解释

因为self._moudles是父类的属性,这个属性类型是OrderedDict()有序字典,这样添加层是将你的层嵌入到模型中,这也是为什么此处并没有重写forward函数。因为self._moudles是父类的属性,这个属性类型是OrderedDict()有序字典,这样添加层是将你的层嵌入到模型中,这也是为什么此处并没有重写forward函数。rand是从0-1的均匀分布中随机抽样,randn是从0-1的正态分布中抽样forward中定义的计算用的是不可反向传播的data,所以backward没结果的。

2023-11-16 23:18:28 118

原创 【无标题】chapter6卷积

Wijkl里面的kl是对应X的kl也就是输入的矩阵的元素,ij代表卷积核里面和kl相乘的那个值,因为卷积核的值不会变但是会滑动所以sigma下标是kl,实际就是滑动卷积的意思。a,b两个维度代表的是之前的权重w,但是现在叫做卷积核,而i,j代表遍历每个不同的权重w使得做到滑动的效果,而去掉i,j则是代表固定卷积核,所以可以去掉i,j。因为卷积是可以保留空间信息的,是二维的“扫”过去的,这样子二维的输入输入是可以保留一个位置的相对信息的。Y是前面用[1,-1卷积出来的结果,并不是随机给的]

2023-11-16 23:14:16 199

原创 chapter3。。。

对X进行reshape时总元素个数是确定的,指定了一个维度,另一个维度就可以自动计算出来y_hat[[0, 1], y] #第几个样本 属于第几类第三行是索引,【0,1】是行索引,y是列索引 然后配对 最后取y_hat[0,0] y_hat[1,2]第三行代码:把这两个样本属于真实标签即0,2的预测概率拿出来【第几个样本,第几个特征】有了y,我们知道在第一个样本中,第一类是正确的预测;而在第二个样本中,第三类是正确的预测。然后使用y作为y_hat中概率的索引,我们选择第一个样本中第一个。

2023-11-14 13:35:24 49

原创 向量矩阵范数pytorch

范数是向量或矩阵的长度矩阵的长度 模二范数是什么二范数(L2 norm)是一种常见的数学概念,它表示一个向量的模长。

2023-11-14 13:32:32 721

原创 在报错中学python something

1.1 os.makedirs(path, mode=0o777) 方法:用于递归创建目录。上述执行完以后再打印df 出来的还是get_dummies 前的图,因为你没有写,赋值。这里报错不是简单的连接,是因为mean函数的,求mean的对象中有整数也有字符串。在上级目录创建data文件夹,记得找到上级目录的data再删。path – 需要递归创建的目录,可以是相对或者绝对路径。方法可以把把 离散的类别信息转化为onehot编码形式,对每个类别的值都进行0-1编码。mode – 权限模式。

2023-11-13 19:13:57 165

原创 第四章mlp

有种loss函数,或许我说的是SVM,在进行分类任务时,分类结果,正确类别要比别的类别 概率高,且要高过一个阈值,🔺theta,就算这个类别贡献的loss为0。这样一来,因为我们要训练优化的是我们的权重矩阵和偏置向量嘛,权重矩阵 的可能性就会很多,权重矩阵乘上一个标量照样可以使得 loss值一样小,改为0的项还是为0。可能会导致,过拟合(参数复杂,数据过少),于是 权重衰减,降低模型的复杂度,于是给loss函数加上一项,权重举证的L2范数正则化。用来测试表示式,其返回值为假,就会触发异常。

2023-11-13 19:11:47 73

原创 pytorch基础语法问题

看到这里我不由得想,会不会有更复杂的例子呢,万一 输入参数太多多维,导致得到的z不只是一个一维向量,是多维的矩阵,那么就是sum起来或者是点乘一个和z尺寸相同的全1矩阵咯,反正,z是一定是要被处理成一个标量才能进行求导。当 z.sum().backward(),求和再对x求导,这个导数就大了不少(广播机制之后再求和,计算过程中标量y维数扩大了四倍,导致z对y的导数也扩大了四倍,夸大了,不合适。其实,可以让sum(z_partial) 对于X求导,对xi 求偏导,就可以得到对应的z_partial。

2023-11-09 23:21:38 764

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除