异常解决:cococaption包出现找不到edu.stanford.nlp.semgraph.semgrex.SemgrexPattern错误 异常解决经验分享: coco-caption包出现找不到edu.stanford.nlp.semgraph.semgrex.SemgrexPattern错误
浅析Swin transformer模型(通俗易懂版) 对于最近新出的Swin Transformer的系统学习,包括模型的基本结构、参数介绍、计算过程等详细介绍,全面了解该模型,文中包含相关代码和论文下载连接。
循环神经网络(RNN)及其变体GRU和LSTM的基础知识详解(公式) RNN计算公式RNN结构图结构图中变量名介绍a:上一个时间步的激活值(activate value)x :第x个输入(一句话中第x个字)y:第y个输出(预测值)Waa:与激活值进行计算的参数。其中第一个a是指当前参数是计算a(激活值)的,第二个a是指当前参数与激活值进行乘运算Wax:与输入进行计算的参数。其中第一个a是指当前参数是计算a(激活值)的,第二个x是指与输入值x进行运算Wya:与激活值运算的参数,得到的记过为y。其中第一个y是指当前参数是计算输入值y的,第二个a是指与激活值a进
h5py读取h5文件报错:Unable to open object (bad heap free list) 前言最近在复现一篇论文的代码时发现了一个致命问题,研究了一天,终于还是破解了。网上找了半天,一个类似的解决方案都没有,记录一下。错误出现的代码位置:self.feature_app_file = h5py.File(self.opt.input_app_feature, 'r', driver='core')错误信息Traceback (most recent call last): File "train.py", line 259, in <module> train
SEnet 通道注意力模块 SEnet 通道注意力模块开篇一张图:变量和图片解释:三个正方体:特征向量,比如说图像的特征,H表示图片高度、W表示图片宽、C表示通道(黑白1通道、彩色3通道)字母:X表示输入特征;Ftr表示的是对X进行一次卷积,也就是对特征进行一系列的操作之后的结果,表示为U;Fsq(.)表示的是对U进行压缩;Fex(.)表示的是对U进行激活(就是赋予权重);Fscale(.)表示的是对U进行放大(就是恢复维度);执行过程对于输入的特征X进行一些列处理(在图中表示为卷积:Ftr)之后,得到处
论文阅读--Semantic Grouping Network for Video Captioning Semantic Grouping Network for Video Captioningabstract提出了Semantic Grouping Network(SGN)网络:用部分已经解码的字幕中,选择可可以区分的单词短语对视频帧进行分组,也就是将表达不同意思的帧分组(与聚类相似);对语义对齐的组进行解码,以预测下一个单词;(根据前面的已经生成的、分好组的词预测下一个)以前:丢弃或者合并重复视频信息SGN:检索最有鉴别能力的单词短语,然后将这些词与视频帧关联 。这样可以让语义差不多的帧
简析LSTM()函数的输入输出数据 LSTM()函数输入参数参数有input_size, hidden_size, num_layers, bias, batch_first, dropout, bidrectional.常用的就是Input_size就是输入的大小,一般就是多维度的最后一个维度的值。hidden_size 是输出的维度,也是指输出数据的维度的最后一个维度的大小。bidrectional表示是否为双向lstm。这可能影响输出维度,后面讲。e.p.lstm_bi=torch.nn.LSTM(input_size=1
Linux(Ubuntu20.04)安装配置Caffe环境(No module named caffe) 0. 前言ImportError: No module named caffe我滴天,我感觉我为了解决这个问题,都能写一篇论文了,整整搞了两天,是真麻烦,所以,我建议,如果能换成不用caffe的代码的话,尽量别用caffe跑了,太难了~1. 尝试解决办法首先,网上推荐的是用编译的方式进行安装配置caffe。具体如下:1.1 创建环境conda create -n caffe_env python=2.7.18conda activate caffe_envpip install pip -
Linux(Ubuntu)通过NFS服务挂载群晖NAS为虚拟磁盘 0. 前言 由于服务器存储空间有限,但是如果有个外置的NAS存储服务就能够很好的解决服务器的磁盘问题。下面就简单介绍一下如何将NAS挂载在服务器上,简介的扩充磁盘。1. 设置NAS,共享目录1.1 文件服务 设置首先进入NAS服务,打开 [控制面板] ,在控制面版包含** 文件服务 ** 功能如图所示。然后进入文件服务,设置相关的文件权限: 在“文件服务”右侧选择"SMB/AFP/NFS"一栏,滑倒最下面有个[NFS],打开后,有个"启动NAF服务"的复选框,选中 。这样我们就设置好了
conda安装pytorch的镜像源问题 在安装pytorch的时候因为源的问题折腾了非常久,在这记录以下。问题报错:(video_env) D:\profession\code\model\SAAT-master>conda install pytorch-cpu==1.1.0 torchvision-cpu==0.3.0 cpuonly -c pytorchCollecting package metadata (current_repodata.json): failed# >>>>>>&
使用appium和夜神模拟器爬取抖音视频链接 折腾了好几天,终于算是有了最后的结果了,哈哈,暂时本人实现了滑动抖音视频,同时用很笨的方法躲过抖音的反爬,最后将抖音视频的链接保存下来。一、准备工作安装appium可视化软件(翻墙可能回安装快一点,下载很快,安装可能比较慢,因为安装的时候好像要从github上面下载一些依赖项)安装夜神模拟器安装基本的python环境,依赖项的话 ,在运行代码的时候 根据报错挨个安装吧大概就这些。二、安装模拟器和appium连接模拟器在安装完夜神模拟器后桌面回有两个快捷方式,分别是多开器和模拟器,默认安
django中新插入对象数据到数据库并返回自增主键的ID 问题:在Django中新插入一条数据之后,后面还需返回其自增的主键(ID)的值,从而完成后面的操作修改前:sign_id = models.IntegerField(primary_key=True)解决:将IntegerField 换成 AutoField修改后:sign_id = models.AutoField(primary_key=True)用法:例如对象名为Bookbook = Book(name='C语言', price=25.5)book.save()print('
Transformer 网络 Transformer从整体框架来讲,Transformer其实就是encode-decode框架,即就是编码解码。只不过在编码和解码的内部比较复杂,经过了多次复杂计算。比如说,encode编码阶段,其内部整体框架如图所示。在图上可以看出,首先输入所有的向量,然后经过多次block的计算,最终得到相同数量的输出结果向量。其中每个block内部包含一层自注意力机制、一层全连接层。同样,在自注意力机制中,计算每个向量时都会考虑其他元素。区别是,在transformer的自注意力机制结束后,.
自注意力机制(Self-attention) 自注意力机制(Self-attention)背景最近,学了好多东西,今天看了一下李飞飞老师讲解的自注意力机制,因此在这记录一下,以供日后复习,同时自己学习消化知识也好。综述一般来说,模型的输入输出有三种: N个输入,经过模型计算后,输出N个结果,也就是对输入向量进行计算,从而得到每个向量对应的输出值。 N个输入,送入模型进行计算,最终得到一个结果。这就是平时常见的比如,文本分类、情感分析等。 任意个输入,输出任意个输出。这种在生活中也较为常见,比如机器翻译,对于一句
浅析 集束搜索(Bean Search) 算法 集束搜索(Bean Search)背景 场景一:如果说,你想实现:输入一段语音片段,经过一一列操作,实现最后输出语音的内容。再此过程中,假如你不想随机输出一些结果,而想得到最好最优的输出结果,此时,则需要本算法。 场景二:实现机器翻译,输入一段法语,输出一段最有的翻译结果。方法:1. 使用的网络:2.词典3.思想与贪心算法不同,集束算法含有一个变量b(bean width), 用来存放在一次搜索中,搜索多少个可能的结果。例如:第一步:在搜索第一个词时,
Resnet网络结构图和对应参数表的简单理解 ResnetResnet即就是残差网络,本文主要是对于resnet给出的网络结构图进行简单解释。网络结构图以上就是34层网络的网络结构图。以上是18层、34层、50层、101层以及152层网络所对应的残差块。我刚开始在网上看到这两张图片的时候,感觉一点都不懂,后面学了一下,稍微懂了,所以写下这篇博文做个记录。个人理解比如说第一张34层的网络结构图,它对应的是第二张图片的第四列。在第四列中,每一行的大概解释如下:第二行表示,从18层到152层的conv1都使用了64个7*7的卷积核,
梯度下降 梯度下降adagrad每次学习率都会除以一个值,所以会更新越来越慢。所除的那个值恰好为函数的二次微分vanilla gradient descentstochastic只考虑一次的lossfeature scaling
机器学习_1/2 机器学习概述机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。数据集的构成存储类型:文件格式(如csv)可用的数scikit-learnKaggleUCI常用数据集数据的结构组成结构:特征值 + 目标值处理:pandas:一个数据读取非常方便以及基本的处理格式的工具sklearn: 对于特征的处理提供了强大的接口特征工程概念将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对位置数据的预测准确性意义直接影响预测
Pandas基础知识 Pandas常用数据类型Series 一维,带标签数组用法:import pandas as pd# 法一b = pd.Series([1,3,4,5,2,3,2], index=list("abcdefg")) # index指定索引值,与数组一一对应,b.dtype的值为int64# 法二a = {'name':'zhangsan', 'age':30} # a.dtype的值为objectpd.Series(temp_dict) # 索引=键 索引对应的值=键对应的