Selvaggia-CSDN博客

原创 attention and tell论文【无标题】

itftotctσσσtanhTDmnnEyt−1ht−1xtitftotctσσσtanhTDmnnEyt−1ht−1zt这几个公式使用LaTeX语法表示为：etifattxiht−14αti∑k1L。

2024-04-15 14:41:13 1163

原创画图【无标题】

print(torch.cuda.is_available()) # cuda是否可用。print(torch.version.cuda) # cuda版本。LD_LIBRARY_PATH该设置为什么。换了个更高版本的torch。

2024-04-15 14:40:33 503

基于transformer以前UNET架构，基于卷积，现在把卷积换成transformer数据更少，文本数据就要更优质训好了，通过增加额外模块，提高文本质量如果给的文本时粗粒度的，那么生成的图片，额外信息，随即补全按类别引导，而不是按文本引导？衡量图像文本对的匹配程度重参数技巧Σ：VAE提高分辨率压缩QKV三个阶段，灾难遗忘前面用简单的数据，后面用好一点的数据高质量评估数据集文本编码器的语义理解能力不足，导致编码得到的特征不完全。

2024-04-15 14:39:27 298

原创 Linux命令、代码【无标题】

按下win+r打开运行,输入 regedit回车进入注册表:计算机\HKEY_CURRENT_USER\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\MyComputer\NameSpace"子项"。看子项里的值和数据,如有“C盘瘦身专家“删除，之后再在注册表搜索“C盘瘦身专家“把搜索到的项目删除就行了。其中，“z”表示使用 gzip 解压缩，“x”表示解包.gz解压命令 linux，“f”表示指定要解包的文件名。

2024-04-15 14:38:00 166

原创狂补基础知识(基础数学\DDPM入门)【无标题】

高斯分布（也称为正态分布）的概率密度函数（Probability Density Function, PDF）是用于描述随机变量在连续空间上各个取值点的概率密度的函数。其数学表达式如下：f(x)=12πσ2⋅e−(x−μ)22σ2f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \cdot e^{-\frac{(x - \mu)^2}{2\sigma^2}}f(x)=2πσ21⋅e−2σ2(x−μ)2其中：概率密度函数值的含义：概率密度（Probability Density）

2024-04-15 14:37:03 908

原创贝叶斯公式及其推导（文生图LDM，【数学基础】）

该定理是基于条件概率的规则来计算事件A在已知事件B发生的条件下发生的概率，即后验概率P(A|B)，它可以由先验概率P(A)、似然度P(B|A)以及B事件本身的概率P(B)来确定。综上所述，正态分布的线性变换保持正态分布特性的原因在于正态分布本身的内在属性允许其通过线性操作后仍能保持相同的分布形态，仅仅是将分布的位置（通过均值移动）和尺度（通过标准差放大或缩小）做了相应的改变。是边际概率或者证据概率，是在只知道信息 I 的情况下，事件 B 发生的概率，它起到归一化的作用，确保后验概率是一个有效的概率分布。

2024-04-15 14:35:46 829

原创狂补基础知识(基础模块)【无标题】

你需要搭建一个网络模型来完成一个特定的图像分类的任务。首先，你需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当你觉得结果很满意的时候，你就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是 pre-training。之后，你又接收到一个类似的图像分类的任务。这时候，你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数，然后在训练的过程中，依据结果不断进行一些修改。

2024-04-15 14:34:52 808

原创如何判断自己的电脑里有没有cuda以及查看cuda版本

而运行 CUDA 应用程序需要系统至少具有一个支持 CUDA 的显卡和CUDA工具包兼容的驱动程序，这些工具包括 CUDA SDK、 CUDA Studio、 CUDA Testing Kit、 CUDA Software Development Kit、 CUDA Developer Kit、 CUDA Package Kit 和 CUDA Enterprise Toolkit 等，每一种都具备了强大的功能。1、在电脑桌面，鼠标右键点击此电脑，选择“属性”。2、然后在弹出的对话框中点击“设备管理器”。

2024-02-20 18:10:14 3180 3

原创为后端做准备

ArgumentParser 中最重要的方法是 .add_argument()，它有几个变体。如果是从前端上传的zip，只想将解压后的文件夹存在服务器中，那么先解压再保存（保存之后才存在文件路径），可以将前端输入的zip文件。经典的 Unix 命令秉承了“一次只做一件事，并做到极致”，但现代的趋势把“几个密切相关的操作”放在一起。argparse 模块是一个强大的命令行参数解析器，还有很多功能没能在这里介绍。args= parser.parse_args(“从命令行传入的参数”.split())

2024-02-05 22:16:34 2889

原创【初读论文】

RoI(Region of Interest)是通过不同区域选择方法，从原始图像(original image)得到的候选区(proposal region)。需要注意的一点是RoI并不等价于bounding box, 它们可能看起来像，但是RoI只是为了进一步处理而产生的候选区域。从数据开始，到模型，损失函数，优化算法到训练循环，推理输出一条龙服务。我觉得可以理解pipeline为“流程”，它主要描述了数据是如何在节点之间流动的。在计算机视觉领域，从输入的图像中框选处理待处理的区域就是ROI。

2024-02-05 21:40:45 845

原创一些运行指令_无用草稿

【代码】一些运行指令_无用草稿。

2024-02-05 21:40:28 361

原创【部署大模型的准备工作】

有个参数改成下载token的模型。先从huggingface官网。下载所需要的Bert模型（搜索。

2024-02-05 21:39:41 1610

原创【无标题】安装环境

这个文件夹复制到搜寻的路径（安装的包就是一个文件夹嘛）TT，查到是 anaconda3/envs/masktextspotter/lib/python3.8/site-packages,放到这个路径下，好像没再报错了，但可能这个文件夹就没安装成功，是错的。omitting directory XXX 错误。训练语料库只含少量中文数据，论文中写到将其忽略。好像不管什么版本 -f 后面接的都是一个网址。没用，继续报错TT TT。不可以，一直在解析环境。检测中文时出现以下错误。一堆报错，报错找不到。

2023-12-09 14:55:04 1146

原创关于python一些惯用写法、语法、文件读取

对于很多编程语言来说，程序都必须要有一个入口，比如 C，C++，以及完全面向对象的编程语言 Java，C# 等。但和C，C++、Java 以及 C# 等有所不同的是，Python属于脚本语言，不像编译型语言那样先将程序编译成二进制再运行，python是动态的逐行解释运行，也就是。== ‘__ main__’ 所在模块是被直接运行的，则该语句下代码块被运行，如果所在模块是被导入到其他的python脚本中运行的，则该语句下代码块不被运行。1、3说的可能不太对，但总归是一样的值，打印出来根本不是。

2023-12-06 17:02:23 395

转载【了解detectron2框架】（我哭死TT，原博主写得太好了，全程感动感激涕零）

加载部分首先读取命令行给出的参数，读取关键的权重以及网络配置信息，并得到一个参数对象；紧接着生成一个logger；接下来将命令行参数与大量的默认参数进行合并，生成最终的网络配置；最后，判断硬件环境选择GPU还是在CPU，然后在硬件上根据配置文件生成并初始化检测器对象并返回。这样就得到了这个检测器对象，如果我们已知了输入的类型，实际上可以直接调用这个对象生成预测，就像上面的例子代码那样。

2023-12-06 17:00:33 358

原创 detectron2中save_text_instance_predictions⭐

除了使用 json.dump() 方法直接将 Python 对象写入到文件中，我们还可以使用 json.dumps() 方法将 Python 对象序列化为 JSON 字符串，然后将其写入文件。在这个示例中，我们首先使用 json.dumps() 方法将 Python 字典对象 data 序列化为 JSON 字符串，然后使用文件对象的 write() 方法将其写入文件 data.json 中。上述代码将创建一个名为data.json的JSON文件，并将data字典对象写入文件中。，然后将其写入文件。

2023-12-06 16:34:37 924

原创安装错误_ImportError: cannot import name ‘XXX‘循环引用绕晕TT(deepsolo)

显然，有两个module，一个是adet.evaluation，一个是adet.evaluation.text_evaluation_all。主要就是这条语句出错，看了一下 rapidfuzz的_init_ .py文件，根本没有string_metric这个函数或者是什么别的东西。学到的，import的可能是个py文件，逐层import, 最终应该是某个py文件里的function。这样可以避免，导入text_eval_script.py两个文件，真正的错误在这两个文件里，

2023-12-03 21:53:32 1562 1

原创【无标题】parseq

一堆乱七八糟。

2023-12-03 21:52:44 408 1

原创【无标题】mmocr在云服务器上

原文链接：https://blog.csdn.net/Charles5101/article/details/108213002。如果自己已经下载到服务器某个文件夹，直接cd到这个文件夹就好，cd进这个文件夹，再pip 各种当前路径文件夹下的txt。conda create -n pytorch python=3.8 （pytorch 是我自己取的名字）copied_env_name即为被复制/克隆环境名。new_env_name即为复制之后新环境的名称。1）显示安装过的所有虚拟环境。

2023-12-01 20:45:08 1146

原创 MobaXterm连接相关、Linux服务器上安装Anaconda

其实最终解决的方法，还是，因为要远程连接的是个局域网ip，我所在的ip和要连接的这个不在同一个局域网内，需要实验室搭的VPN才行。甚至，我连防火墙都没关，也可以连接至于修改密码，passwd，要求输入两边current passward，但是网不好还是什么原因输入不了密码，直接通过mater passward显示用户密码直接在可视化界面修改的。

2023-12-01 13:09:17 1662 1

原创【无标题】读DETR

问题：detr每次都会出100个输出，但是实际上一个图片的GT的bounding box可能只有几个，如何匹配？如何计算loss？怎么知道哪个预测框对应GT框？转化为。

2023-12-01 13:09:11 880

原创【无标题】读transformer

编码器和解码器的架构处理一个序列对纯基于注意力，selfattention，没有RNN*在论文里面同样贡献序列转录，给一个序列生成另一个序列传统依赖于循环或者卷积神经网络，dispensing with 免除，不需要indispensable 不可或缺的BLEU score机器翻译里大家经常用到的衡量标准一开始用在机器翻译比较小的领域。

2023-11-30 15:23:34 955

原创 OCR常用数据集_看数据集区分可识别语言

最后，我们从剩余图像中随机抽取一个子集来构建我们的数据集。HierText 图像具有更高的分辨率，其长边限制为 1600 像素，而之前基于 Open Images [22,48] 的数据集限制为 1024 像素，从而产生更清晰的文本。该数据集共1555张图像，11459文本行，包含水平文本，倾斜文本，弯曲文本。文件大小441MB。Total-Text 是一个数据集, 其中包含各种形状的文本, 包括水平的,多取向的和弯曲的. 这 3 个数据集包含了中文和英文的数据集共 6 万张, 用于文字检测和识别。

2023-11-27 19:43:54 1978

原创【无标题】动手学深度学习_现代神经网络_未完

（2）然后把输入x通过修改后的网络前向传播，然后把得到的损失结果通过修改的网络反向传播。对一小批训练样本，先前向传播然后反向传播损失并根据随机梯度下降法更新参数（w，b）（没有被删除的那一部分参数得到更新，删除的神经元参数保持被删除前的结果）。相比于lenet的average pooling，这里用maxpooling，使得输出值更大，梯度相对更大，训练比较容易一点。11,16,19指的是含有可训练参数的层的总数，也就是不包括激活层，池化层这种不含训练参数的层。Dense层就是所谓的全连接神经网络？

2023-11-27 19:43:08 823

原创数据集的标签文件【无标题】

json格式的数据在解析到Python中数据结构也会发生相应的变化，解析前后json与Python数据结构的对应关系如下。.json是用来存储简单的数据结构和对象的文件。json是一种轻量级的数据交换格式。接下来再就是对字典操作了。.json的本质是字典。

2023-11-27 19:42:14 394

原创 Google Colab下运行的环境配置

colab运行alexnet。

2023-11-24 08:55:52 754

原创找论文找论文

原文链接：https://blog.csdn.net/qq_44826240/article/details/128240883。总结一下：端到端的学习其实就是不做其他额外处理，从原始数据输入到任务结果输出，整个训练和预测过程，都是在模型里完成的。顶会的论文集：https://openaccess.thecvf.com/menu。dblp.org官网下载会议中的论文： https://dblp.org/，也能显而易见，不知道哪个才是最常用的，亦或是别的。论文下载网址：https://arxiv.org/

2023-11-23 19:07:44 898

原创 Colab跑项目

运行train.py下载的是yolov5-v5版本1、把模型文件的压缩文件上传到colab2、!unzip /content/yolov5-5.0.zip解压缩3、%cd /content/yolov5-5.0转移到当前文件夹4、!pip install -r requirements.txt安装所有需要的库5、打开画学习曲线的tensorboard工具所有的训练loss等结果都会记录在tuns/train的文件夹中6、运行!

2023-11-20 13:46:36 284

原创 Yolov5

anchor字面意思是锚，是个把船固定的东东（上图），anchor在计算机视觉中有锚点或锚框，目标检测中常出现的anchor box是锚框，表示固定的参考框。传统非深度学习方法和早期深度学习方法，都要金字塔多尺度+遍历滑窗的方式，逐尺度逐位置判断"这个尺度的这个位置处有没有认识的目标"，这种穷举的方法非常低效。，如在Faster R-CNN和SSD两大主流目标检测框架及扩展算法中anchor都是重要部分。最近SOTA的目标检测方法几乎都用了anchor技术。１．Anchor是啥？通过手机电脑摄像头检测。

2023-11-18 22:39:16 372

原创 Yolov5安装运行过程中出现的问题

一般情况下，项目提供者会在 requirements.txt 文件中列出所有项目所依赖的 Python 包及其版本号，使用这个命令可以方便地安装这些依赖并满足项目运行的需要。这个命令会自动安装依赖的 Python 包，如果依赖的包已经安装了，或者是已经安装了版本符合要求的包，则不会进行重复安装。附上下载链接：https://github.com/ultralytics/yolov5/releases/download/v5.0/yolov5s.pt。这种方法适用于需要强制退出Python程序的情况。

2023-11-18 21:34:22 588

转载一些常用shell命令

grep可用于shell脚本，因为grep通过返回一个状态值来说明搜索的状态，如果模板搜索成功，则返回0，如果搜索不成功，则返回1，如果搜索的文件不存在，则返回2。连续使用管道意味着第一个命令的输出会作为第二个命令的输入，第二个命令的输出又会作为第三个命令的输入，依此类推。现在基于linux开发横行，互联网产品后台基本都是基于linux，android，mac，到处都是linux，所以，作为一个与时俱进的测试，不熟悉linux是不行的，记录一下测试中常用的一些shell命令。这些选项可以组合使用。

2023-11-18 14:37:12 68

原创【无标题】函数参数列表

reshape函数的本质我觉的就是view函数+contiguous函数。

2023-11-18 10:59:21 47

原创多通道输出交叉相关

2、多通道输出（三通道输出，三种卷积核，对应不同的识别特征）多通道输入（样例中为2通道输入）

2023-11-17 20:58:34 26

原创基础框架代码解释

因为self._moudles是父类的属性，这个属性类型是OrderedDict()有序字典，这样添加层是将你的层嵌入到模型中，这也是为什么此处并没有重写forward函数。因为self._moudles是父类的属性，这个属性类型是OrderedDict()有序字典，这样添加层是将你的层嵌入到模型中，这也是为什么此处并没有重写forward函数。rand是从0-1的均匀分布中随机抽样，randn是从0-1的正态分布中抽样forward中定义的计算用的是不可反向传播的data,所以backward没结果的。

2023-11-16 23:18:28 118

空空如也

空空如也