- 博客(63)
- 资源 (32)
- 问答 (1)
- 收藏
- 关注
原创 lmdb高效存储图片数据
最近在做预训练的时候,需要从视频中提取图片,然后保存在lmdb数据库中。但是直接储存图片数据会占用很大的内存,所以存储的时候,需要先将图片编码压缩之后,再存储到lmdb数据库;读取的时候,需要读取出来之后再解压缩。参考:Write jpeg file directly to lmdb [closed] - 码农岛可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试):问题:Imanagedtowritenumpyarraystolmdb,howewersolu
2022-03-01 12:25:39 2230
原创 Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss 阅读笔记
要点总结:1、Dual Softmax lossDual Softmax loss是先对M1使用按列的softmax,得到M2(相当于考虑Video2text的相似度权重),M1再和M2按对应元素相乘得到M4,再对M4进行按行的softmax,得到M5,这样得到的相似矩阵M5和原始的相似矩阵M3相比,准确度会更高...
2021-09-28 22:48:05 870
转载 多模态融合 fusion 的各种操作
文章转载:作者丨小奚每天都要学习@知乎(已授权)来源丨https://zhuanlan.zhihu.com/p/152234745Zhang, C., Yang, Z., He, X., \& Deng, L. (2020). Multimodal intelligence: Representation learning, information fusion, and applications.IEEE Journal of Selected Topics in Signal Pro
2021-08-30 20:13:18 3974
原创 Self-supervised Pre-training and Contrastive Representation Learning for Multiple-choice Video QA
AAAI 2021AbstractIn this paper, we propose novel training schemes for multiple-choice video question answering with a self-supervised pre-training stage and a supervised contrastive learning in the main stage as an auxiliary learn- ing.1. In the self
2020-12-21 11:29:49 496
原创 iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question
1. problems:1.1 Most prior art in visual understanding relies solely on analyzing the “what” (e.g., event recognition) and “where” (e.g., event localization), which in some cases, fails to describe correct contextual relationships between events or leads
2020-11-23 12:55:09 410
原创 论文阅读:MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering
1、abstractWe present MMFT-BERT (MultiModal Fusion Transformer with BERT encodings), to solve Visual Question Answering (VQA) ensuring individual and combined processing of multiple input modalities.Our approach benefits from processing multimodal data
2020-11-09 00:19:39 752
原创 2020 cvpr Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions
摘要为了理解电影,人们常常根据特定场景的对话和动作来进行推理,并把它们和已看到的整个故事线相联系。受这个行为的启发,我们设计了ROLL(Read, Observe, and Recall,)模型,利用电影理解的三个关键方面:1、对话理解 2、场景推理 3、故事线回忆。在ROLL模型里,每个任务负责提取丰富多样的信息,通过:1、处理场景对话 2、生成无监督视频场景描述 3、以弱监督的方式获取外部知识。每个激发-认知任务产生的信息通过Transformers编码,最终由modality weighting.
2020-10-31 23:17:45 568 2
原创 2020 cvpr Modality Shifting Attention Network for Multi-modal Video Question Answering
摘要:这篇文章针对多模态视频问答任务,提出了一种叫做Modality Shifting Attention Network (MSAN)的网络。MSAN可以分解为两个子任务:(1) localization of temporal moment relevant to the question(与问题相关的时间的定位) (2) accurate prediction of the answer based on the localized moment.(基于定位的时间来预测答案)。这个模型要求
2020-10-29 11:17:00 611
原创 2020 cvpr Hierarchical Conditional Relation Networks for Video Question Answering
摘要:problems:Video question answering (VideoQA) is challenging as it requires modeling capacity to distill dynamic visual artifacts and distant relations and to associate them with linguistic concepts(Video QA任务具有挑战性,因为他需要模型能力来提取动态的视觉对象和距离关系并且和语言概念联系起来)
2020-10-21 14:20:15 984
原创 2020cvpr论文阅读 On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering
摘要:目前的VQA方法的泛化能力都挺差,容易学习到数据中一些巧合的联系,而不是图像和问题的更深层的联系。所以论文作者提出了一种数据集来设法解决这个问题。该数据集的问题包含两种语言:中文和英文;并提供一种基于图像的利于理解的度量标准来反映方法的推理能力。测量推理能力可通过惩罚碰巧正确的答案来提高模型的推理能力。简介:聚焦于数据中巧合的联系会使泛华能力下降。这些联系在数据集之间并不稳定,一旦测试数据和训练数据集的分布不一样,那些利用这些联系的方法就无法正常工作。相反,底层的推理,在数据集之间稳定,促
2020-10-20 19:18:25 436
原创 ShakeDrop正则化
论文地址:https://arxiv.org/abs/1802.02375ShakeDrop简介ShakeDrop用于缓解深度神经网络过拟合的问题,受到Shake-Shake方法启发。Shake-Shake方法有两个问题:1、只适用于ResNeXt网络, 2、Shake-Shake有效性的原理还未鉴定ShakeDrop可以适用于ResNet, Wide ResNet, PyramidNet另外由于有效的正则化往往造成训练不稳定的问题,文中还提供了一种新的稳定机制用于难以训练的网络.
2020-10-10 15:47:27 1279 1
原创 Counterfactual Samples Synthesizing for Robust Visual Question Answering 2020cvpr论文阅读
摘要:目前的方法不能使基于全局的模型同时有效利用两种不可或缺的特征:1、图像可解释性:模型在生成答案时应该依赖正确的图像区域;2、对问题敏感性:模型应该对问题的语言变化要敏感所以论文作者提出了一种跨模型的训练策略叫Counterfactual Samples Synthesizing(反事实样本合成)...
2020-10-10 15:36:05 571
原创 2020 cs231n 作业3 笔记 Generative_Adversarial_Networks_PyTorch
Generative Adversarial Networks论文地址:Generative Adversarial Networks对抗生成网络(GAN)的主要结构包括一个生成器G(Generator)和一个判别器D(Discriminator)。判别器D的目标:对输入的图片正确进行判别为真图片还是假图片。生成器G的目标:生成假图片,但是能让判别器判断为真。所以一方面:要最大化生成器生成的图片被判别为真的概率具体就是判别器D对输入为G(z)的数据,判别为真的概率,即最大化D
2020-07-30 16:13:14 1945 1
原创 2020 cs231n 作业3 笔记 StyleTransfer-PyTorch
目录StyleTransfer-PyTorcContent lossStyle lossTotal-variation regularizationStyle TransferStyleTransfer-PyTorc论文地址,风格迁移是取两张图片,把一张图片的风格和另一张图片的内容合成为一张新的图片。Content losscontent loss用来计算原图片和生成的图片之间像素的差距,这里用的是卷积层获取的feature map之间的差距。公式为:..
2020-07-30 12:22:50 1048
原创 2020 cs231n 作业3 笔记 NetworkVisualization-PyTorch
NetworkVisualization-PyTorchSaliency Maps论文链接,Saliency Maps用来表示每个像素对图像分类得分的影响程度。这里是通过反向传播,来计算每个图片像素的梯度的绝对值,然后在三个通道中选最大值,图片像素维度为(3,H,W),则Saliency Maps的维度为(H,W)def compute_saliency_maps(X, y, model): """ Compute a class saliency map using the
2020-07-30 11:10:19 1400
原创 2020 cs231n 作业3 笔记 LSTM_Captioning
LSTM_Captioning1、简介LSTM里面加入了输入门,遗忘门,输出门,候选记忆细胞(cs231n里面叫g)遗忘门F控制上一时间步的记忆细胞中的信息是否传递到当前时间步,而输入门则控制当前时间步的输入通过候选记忆细胞如何流入当前时间步的记忆细胞。如果遗忘门一直近似1且输入门一直近似0,过去的记忆细胞将一直通过时间保存并传递至当前时间步,这个设计可以应对RNN中的梯度衰减问题,并更好地捕捉时间序列中时间步距离较大的依赖关系。2、作业代码实现2.1、LSTM: step fo
2020-07-27 21:55:20 648
原创 2020 cs231n 作业3 笔记 RNN_Captioning
RNN(Recurrent Neural Network)1、简介循环神经网络(RNN)是一类用于处理序列数据的神经网络
2020-07-27 21:20:29 1268
原创 2020 cs231n 作业2笔记 PyTorch
PyTorch1、简介pytorch官方文档地址:https://pytorch.org/docs/stable/index.html(用来查pytorch的各种函数)pytorch官方导学地址:https://pytorch.org/tutorials/(上面有很多pytorch的代码例子)作业介绍了三种抽象程度级别的模块API Flexibility Convenience Barebone High Low nn.Module High ..
2020-07-24 15:37:16 1239
原创 2020 cs231n 作业2笔记 Convolutional Networks
Convolutional Networks1、卷积层1.1简介关于卷积神经网络的简介,架构等,我的另一篇博文介绍比较详细,这里就不再多说了。另外cs231n官网介绍入口在这里直接上代码实现相关的图。1.2、代码实现前向传播def conv_forward_naive(x, w, b, conv_param): """ A naive implementation of the forward pass for a convolutional layer..
2020-07-24 15:15:59 1273
原创 2020 cs231n 作业2笔记 Dropout
Dropout1、简介dropout随机选取一定比例的单元,将其输出置为02、代码实现:def dropout_forward(x, dropout_param): """ Performs the forward pass for (inverted) dropout. Inputs: - x: Input data, of any shape - dropout_param: A dictionary with the following
2020-07-24 14:17:08 458
原创 2020 cs231n 作业2笔记 Batch Normalization
Batch Normalization1、简介Batch Normalization(批量归一化)在2015年提出来,论文地址。机器学习在输入数据由均值为0,单位方差的不相关特征构成的时候往往表现得更好,但随着网络的训练,每层的weight在不断更新,导致后面layer的输入数据会发生偏移,不再具有均值为0或单位方差,而数据进入网络前,进行数据预处理解决不了这个问题。所以提出了Batch Normalization。批量归一化通常在全连接层(fully-connected layer)或卷积
2020-07-24 00:09:26 823
原创 2020 cs231n 作业2笔记 FullyConnectedNets
FullyConnectedNets简介:神经网络的一般架构可以看作是把很多个layer拼接起来的,如果我们把每个layer的前向传播和反向传播单独实现,这样就可以比较方便的将多个任意layer拼接起来。affine_forward实现线性layer的前向传播:def affine_forward(x, w, b): """ Computes the forward pass for an affine (fully-connected) layer. T
2020-07-20 19:30:06 2410
原创 2020 cs231n 作业1笔记 two_layer_net
目录Two-Layer Neural Network前向传播:反向传播实现loss函数实现train函数:Tune your hyperparameters保存文件:Two-Layer Neural Network前向传播:一个前向传播的计算例子反向传播参考:Backpropagation, Intuitions反向传播使用链式法则,如图上的例子,链式法则为:实现loss函数实现cs231n/classifiers/neural..
2020-07-20 01:38:45 1631
原创 2020 cs231n 作业1笔记 softmax
Softmax Classifier (Multinomial Logistic Regression)(softmax分类器,多分类逻辑回归)求losssoftmax函数:Softmax分类器使用的是交叉熵损失(corss-entropy loss) 计算例子: ...
2020-07-20 00:34:07 787
原创 2020 cs231n 作业1笔记 svm
Multiclass Support Vector Machine loss(SVM loss)求loss:SVM的损失函数想要SVM在正确分类上的得分始终比不正确分类上的得分高出一个边界值。如果正确分类得分比不正确分类得分高出,则损失为0,否则为:正确分类得分 - 不正确分类得分 +损失函数的公式:计算例子:求梯度:直观理解根据损失函数的公式两边求导,svm_loss_naive首先完成cs231n/classifiers/linear_svm...
2020-07-19 19:59:39 524
原创 2020 cs231n 作业1笔记 knn
作业链接:cs231n官网Assignment 1刚开始遇到一个坑,就是py文件老是没保存,后来才知道需要运行.ipynb文件后面的代码来保存py文件打开knn.ipynb,首先要实现的是cs231n/classifiers/k_nearest_neighbor.py文件里的compute_distances_two_loops(self,X)这个函数。函数计算的是L2 distance。公式:L1 distance: L2 distance: f...
2020-07-19 16:51:18 1339
原创 2020 cs231n 卷积神经网络 学习笔记
深度前馈网络(deep feedforward network):1、前馈网络目标:是近似某个函数f(),定义了一个映射y=f(x;theta),并且学习参数theta的值,使它能够得到最佳的函数近似。前馈(feedforward )是因为模型的输出和模型本身之间没有反馈连接,当前馈网络被扩展成包含反馈连接时,它们被称为循环神经网络(recurrent neural network)...
2020-07-13 09:32:21 2951
原创 2020吴恩达 machine learning 编程作业 python实现 ex8_cofi
# -*- coding: utf-8 -*-"""Created on Sat Jul 4 16:49:40 2020@author: cheetah023"""import numpy as npimport scipy.io as sciimport matplotlib.pyplot as pltimport scipy.optimize as opt#函数定义def cofiCostFunc(params, Y, R, num_users, .
2020-07-04 23:01:21 449
原创 2020吴恩达 machine learning 编程作业 python实现 ex8
# -*- coding: utf-8 -*-"""Created on Sat Jul 4 01:40:18 2020@author: cheetah023"""import numpy as npimport scipy.io as sciimport matplotlib.pyplot as plt#函数定义def estimateGaussian(X): m,n = X.shape mu = np.zeros([n,1]) sigma2 = np..
2020-07-04 16:48:14 344
原创 2020吴恩达 machine learning 编程作业 python实现 ex7_pca
# -*- coding: utf-8 -*-"""Created on Fri Jul 3 23:50:18 2020@author: cheetah023"""import numpy as npimport matplotlib.pyplot as pltimport scipy.io as scidef featureNormalize(X): mu = np.mean(X,axis=0) sigma = np.std(X,axis=0,ddof=1) .
2020-07-04 01:38:04 358
原创 2020吴恩达 machine learning 编程作业 python实现 ex7
# -*- coding: utf-8 -*-"""Created on Fri Jul 3 18:23:49 2020@author: cheetah023"""import numpy as npimport scipy.io as sciimport matplotlib.pyplot as pltfrom skimage import io#函数定义def findClosestCentroids(X, centroids): #样本数量 m,n =...
2020-07-03 22:20:00 346
原创 2020吴恩达 machine learning 编程作业 python实现 ex6_spam
# -*- coding: utf-8 -*-"""Created on Fri Jul 3 08:09:20 2020@author: cheetah023"""import scipy.io as sciimport numpy as npfrom sklearn import svmfrom sklearn.metrics import accuracy_scoreimport pandas as pdimport re #regular expression for e-m.
2020-07-03 10:58:28 272
原创 2020吴恩达 machine learning 编程作业 python实现 ex6
# -*- coding: utf-8 -*-"""Created on Thu Jul 2 20:13:57 2020@author: cheetah023"""import numpy as npimport scipy.io as sciimport matplotlib.pyplot as pltfrom sklearn import svm#函数定义def plotData(X, y): pos = np.where(y == 1) neg = np.w.
2020-07-03 01:01:38 322
原创 2020吴恩达 machine learning 编程作业 python实现 ex5
# -*- coding: utf-8 -*-"""Created on Thu Jul 2 12:09:38 2020@author: cheetah023"""import numpy as npimport matplotlib.pyplot as pltimport scipy.io as sciimport scipy.optimize as opt#函数定义def linearRegCostFunction(theta, X, y, lamda): m,n .
2020-07-02 18:52:20 299
原创 2020吴恩达 machine learning 编程作业 python实现 ex4
# -*- coding: utf-8 -*-"""Created on Wed Jul 1 22:37:49 2020@author: cheetah023"""import numpy as npimport scipy.io as sciimport scipy.optimize as opt#函数定义def sigmoid(X): return 1 / (1 + np.exp(-X))def sigmoidGradient(X): g = sigmoid(.
2020-07-02 12:02:46 356
原创 2020吴恩达 machine learning 编程作业 python实现 ex3_nn
# -*- coding: utf-8 -*-"""Created on Wed Jul 1 20:28:57 2020@author: cheetah023"""import numpy as npimport matplotlib.pyplot as pltimport scipy.io as sciimport random as ra#函数定义def sigmoid(X): return 1 /(1 + np.exp(-X))def predict(theta1.
2020-07-01 21:13:45 243
原创 2020吴恩达 machine learning 编程作业 python实现 ex3
# -*- coding: utf-8 -*-"""Created on Wed Jul 1 17:28:18 2020@author: cheetah023"""import numpy as npimport matplotlib.pyplot as pltimport scipy.io as sciimport scipy.optimize as opt#函数定义def sigmoid(X): return 1 /(1 + np.exp(-X))def lrcos.
2020-07-01 19:54:07 354
2020版 Machine_Learning 吴恩达作业1-8代码实现.zip
2020-07-26
linux下使用c语言(非c++)获取歌曲ID3v2的信息,并支持utf-8编码,
2016-07-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人