x_cube-CSDN博客

原创 pytorch8——模型权值初始化和损失函数

Pytorch里面提供了很多权重初始化的方法，可以分为下面的四大类：针对饱和激活函数（sigmoid， tanh）：Xavier均匀分布， Xavier正态分布针对非饱和激活函数（relu及变种）：Kaiming均匀分布， Kaiming正态分布三个常用的分布初始化方法：均匀分布，正态分布，常数分布。#均匀分布初始化# 正态分布初始化# 常数初始化三个特殊的矩阵初始化方法：0初始化，正交矩阵初始化，单位矩阵初始化。#0初始化#单位矩阵初始化# 正交初始化。

2024-01-26 20:41:42 695 1

原创信息论：各种熵及其之间的关系

各种墒的关系图：交集：I(X,Y)互信息，也就信息增益。并集：H(X,Y)联合熵。差集：H(X|Y),H(Y|X)条件熵。单个集合H(X),H(Y)：信息熵。看图可知，若知道信息熵和条件熵可以推出其他。

2023-10-22 21:01:49 874

原创 pytorch7——模型层之Transformer

本文主要对Transformer做代码实现和做一些问答，可以让你更好的对她更深入的了解。看图写代码首先我们看到整个模型由不同的组件组成，其中最重要的部分是多头注意力部分，我们首先从这部分下手。

2023-10-17 21:23:17 876

原创 pytorch系列6——模型层（CNN，RNN, Transformer...)

类似水池收集水资源，因而美其名曰池化层。

2023-10-17 21:08:00 284

原创 pytorch系列5——模型基础nn.Module

利用张量的API我们可以构建出神经网络相关的组件(如激活函数，模型层，损失函数)。Pytorch和神经网络相关的功能组件大多都封装在 torch.nn模块下。

2023-10-12 16:43:58 155

原创 pytorch系列4——数据Dataset&DataLoader

Dataset*args**kwds所有表示从键到数据样本映射的数据集都应该将其子类化。所有子类都应该覆盖__getitem__（），支持为给定的键获取数据样本。子类还可以选择性地覆盖__len__（），许多Sampler实现和DataLoader的默认选项都期望它返回数据集的大小。Dataset定义，类似于列表的数据结构，长度确定，能够用数据集中的元素。Dataset抽象类，所有自定义的Dataset都需要继承它，并且必须这个类方法，作用是接收一个索引，返回一个样本。

2023-10-11 19:49:02 144

原创 pytorch系列3——动态计算图和自动微分

动态计算图和自动微分

2023-10-07 21:39:52 151

原创 pytorch系列2——张量结构操作

文本的操作在github上都有，且有运行结果。

2023-10-02 15:22:01 235

原创 pytorch系列1——张量数据结构

张量其实是一个多维数组，它是标量、向量、矩阵的高维拓展。基于平时常用的张量进行整理，有些操作请区分张量和numpy数组，本文的操作主要针对张量的操作。因为二者看着一样，有的方法放在numpy上会报错。

2023-10-01 21:35:27 73 1

原创 VLP、多模态视频文本（3）实例

到目前为止，我们已经介绍了视频文本文献中一般的模型架构和流行的预训练任务。为了给读者提供更具体的例子，我们选择了三个代表性的模型作为案例研究，包括（i）MIL-NCE（Miech等人，2020），一个双编码器模型；(ii) UniVL (Lu等人，2022a)，一个离线提取视频特征的融合编码器模型；以及（iii）ClipBERT (Lei等人，2021b)，一个直接从原始视频像素学习结束到端融合编码器模型。我们简要回顾了它们的架构和预训练任务。

2023-09-30 14:30:00 155

原创 VLP、多模态视频文本（2）预训练任务

要说视频-文本预训练中使用的预训练任务。首先介绍一些流行的预训练任务。例如，双编码器模型通常通过进行优化。对于融合编码器模型，两个流行的预训练任务是掩码语言建模（MLM）和视频文本匹配（VTM）。然后，我们讨论旨在模拟视频输入的独特特征的预训练任务，例如帧顺序建模（FOM）和不同变体的掩码视频建模（MVM）。

2023-09-30 00:00:00 156

原创 VLP、多模态视频文本（1）

视频本质上包含多种形式，并且已被用作测试AI系统如何感知世界的缩影。在本章中，我们对视觉语言预训练（VLP）在视频文本任务中的应用进行了系统回顾。我们从介绍流行的视频文本任务开始。我们回顾了典型视频文本模型的架构，该架构包括视频编码器、文本编码器和多模态融合模块。我们将代表性的视频语言模型分为两类：（i）双编码器，其中视频和文本分别编码，使用轻量级的多模态融合层或操作（如点积）来融合视频和文本特征；

2023-09-29 18:00:00 290

原创 VLP、多模态图文任务（4）核心视觉任务

随着关于核心计算机视觉问题的VLP文献快速增长，越来越多的论文和有趣的研究课题涌现出来，如图4.9所述。下面，我们简要讨论一些重要的课题，例如：知识增强视觉模型、多语言语言-图像模型、高效和鲁棒的模型适应性、基准测试等。• 知识增强视觉模型。文本编码器可以说是最近开发的语言增强计算机视觉系统中最独特的组成部分。因此，对于核心视觉识别任务来说，提高文本编码的能力非常重要。

2023-09-28 21:00:00 212

原创 VLP、多模态图文任务（3）高级主题

随着以图像和文本为基础的视觉语言预训练研究日益增长，许多其他有趣的研究主题也应运而生。以下，我们对每个单独的主题进行简要讨论，例如大模型、小样本学习、统一建模、鲁棒性评估等。

2023-09-26 21:00:00 189

原创 VLP、多模态图文任务（2）实例解读

到目前为止，我们介绍了图像文本领域中的通用模型架构和流行的预训练任务。为了提供更具体的例子，我们选择了四个代表性模型作为案例研究，包括。以下简要介绍它们的架构和预训练任务。

2023-09-25 16:00:08 332

原创 VLP、多模态图文任务（1）

我们将VLP方法大致分为两类：(i) 双编码器（dual encoder）和 (ii) 融合编码器(fusion encoder)。

2023-09-20 19:58:04 512

原创 VLP、多模态的早期技术举例说明（3）

自上而下的注意力：给定一个图像-问题对，首先从基于目标检测（OD-based）的视觉编码器中提取区域级的自底向上特征（M是区域的数量）。使用词嵌入层和GRU作为文本编码器，得到问题特征 w。需要注意的是，问题特征是一个全局的文本表示，具有512维的单一向量，如图所示。BUTD采用模态间注意力，将查询问题特征关注到每个图像区域。具体而言，每个区域vi的注意力权重ai由一个注意力模型fatt计算，并通过softmax操作进行归一化：其中w_a是一个可学习的参数向量，f_a是一个门控tanh层。

2023-09-19 21:23:55 313

原创 VLP、多模态的早期技术（2）

早期处于视觉-语言vision-language (VL)，未涉及预训练。

2023-09-15 19:00:17 205

原创 VLP(Vision-Language Pre-training)的发展和评估(1)

VLP综述

2023-09-13 16:05:43 150 1

原创 NLP文本特征抽取器

文本提取器

2023-08-09 16:10:57 141 1

转载 RuntimeError: Expected a ‘cuda‘ device type for generator but found ‘cpu‘

将torch.set_default_tensor_type(‘torch.FloatTensor’)改为：torch.set_default_tensor_type(‘torch.cuda.FloatTensor’)。data_loader = data.DataLoader()的参数最后加了generator=torch.Generator(device = 'cuda')

2023-07-28 16:06:18 365 1

原创 huggingface 中模型如何查找和使用？

如何使用模型

2023-06-12 20:43:17 1342

原创下载huggingface-transformers模型

下载你需要的，LFS选一个，若是pytorch就选 pytorch_model.bin，若是tensorflow就选tf_model.h5。为何不调用from_pretrained方法直接下载模型？而且只要联网就可用。如何调用huagging face 里的模型，例如vit。找到你需要的模型下载在本地进行调用。1打开模型页面，输入你要的模型。

2023-06-12 19:57:31 1402

原创论文期刊如何选择？

中科院划分（国内认可的）：Q1（5%），Q2（6-20%），Q3（21-50%），Q4（50-100%）国内期刊：3w-3.5w ,sci4:5w+, 普刊：4000-5000元左右。计算机：自动化学报，研究发展，计算机学报、软件学报、计算机研究与发展，csci。1去百度学术或谷歌学术找你领域内近两年的论文，确定论文的期刊名，并统计下来。1. SCI：理工科，（scie是sci的扩展版，大多数学校认可）3科技核心，4CSDCD，5中国人文社科核心，jcr划分：Q1，Q2，Q3，Q4（四等分）；

2023-05-14 16:11:00 126

原创 logging以及sys.stdout的使用

这样的好处在于，当我们有多个日志去向时，比如既保存到文件，又输出到控制台，就可以分别给他们设置不同的级别；logger 的级别是先过滤的，所以被 logger 过滤的日志 handler 也是无法记录的，这样就可以只改 logger 的级别而影响所有输出。Logger 是负责记录日志消息的，然后我们要把这些日志消息放到哪里，交给 Handler 处理，Filter 则帮我们过滤信息（不限于通过级别过滤），Formatter 就是跟上面的 format 一个意思，用来设置日志内容和格式。

2023-05-10 14:46:01 346

原创 python的os.mkdir,os.makedirs，torch.utils.tensorboard.writer.SummaryWriter

os.makedirs(name, mode=0o777, exist_ok=False)

2023-05-08 21:06:33 97

原创固定所有(pytorch,python,numpy)的随机种子

在需要生成随机数据的实验中，每次实验都需要生成数据。设置随机种子是为了确保每次生成固定的随机数，这就使得每次实验结果显示一致了，有利于实验的比较和改进。使得每次运行该 .py 文件时生成的随机数相同。

2023-05-07 20:41:43 1280

原创 python命令行参数解析包argparse

犯的错：将文件名和包名起了一样。。。会报模块不存在的错。

2023-04-28 17:22:07 170

原创 AttributeError: module ‘lib‘ has no attribute ‘X509_V_FLAG_CB_ISSUER_CHECK‘

因为我想更换anaconda中的pytorch版本，但是失败了，然后再使用时就报错了。但是失败了，然后执行删除命令再重新安装就可以了。

2023-04-21 15:29:43 417

原创基于跨模态预测的以文本为中心的多模态情感分析共享私有框架（2021）

为了区分这两种语义，我们设计了一个跨模态预测任务，并将结果记录为共享掩码和私有掩码。我们进一步提出一个回归模型，利用共享模块和私有模块来融合文本特征和两个非文本特征。一类信息是共享语义，利用该类信息可以加强文本中相应的语义，使得模型更加的鲁棒。另一类信息是私有语义，利用该类信息补充文本语义，进一步使得模型预测更加的准确。实验结果表明，区分共享和私有的非文本语义，并对文本语义和两个非文本语义之间的交互进行显式建模，比将每个非文本特征作为一个整体来处理更有利于多模态情感分析。

2023-04-17 15:38:37 425

转载如何在有限的资源下做出更有影响的工作？（视觉或多模态）

根据视频写下的文章，自己增加了些东西

2023-04-04 19:47:53 521

原创近3三年多模态情感分析论文及其代码

star:444；CMU-MOSEI的sota4;CMU-MOSEI排行第3。MOSI数据排行第1。在CMU-MOSE数据集排行榜。在MOSI数据集排行榜。

2023-03-23 19:38:45 5699 12

转载哈夫曼（Huffman）编码在word2vec中的应用

哈夫曼（Huffman）编码在word2vec中的应用

2022-10-23 17:07:07 321

原创了解语言模型Model Language，NLP必备

从一开始的统计语言模型到 n-gram 模型，最后发展为神经概率语言模型的过程。

2022-10-22 20:41:19 1767

原创音频深度学习变得简单1：最先进的技术

声音信号是由气压变化产生的，我们可以测量压力变化的强度并绘制这些测量值随时间的变化。声音信号通常以固定间隔重复，因此每个波具有相同的形状。高度表示声音的强度，称为振幅。信号完成一个全波所用的时间就是周期。信号在一秒钟内发出的波数称为频率。频率是周期的倒数。频率的单位是赫兹。也就是模拟信号。我们遇到的大多数声音可能并不遵循如此简单和规律的周期性模式。但是可以将不同频率的信号加在一起以创建具有更复杂重复模式的复合信号。我们听到的所有声音，包括我们自己的人声，都是由这样的波形组成的。

2022-10-10 15:52:35 3333

原创 LSTM和GRU

循环网络LSTM和GRU

2022-10-07 15:05:32 587

原创激活函数汇总

多个激活函数在神经网络的优劣与选择

2022-10-05 16:59:17 373

转载 Failed to connect to github.com port 443: Operation timed out /SSL_ERROR_SYSCALL in connection

一：记住以下地址的IP Address ,例如我的地址1. 打开https://github.com.ipaddress.com/140.82.112.32.打开https://fastly.net.ipaddress.com/github.global.ssl.fastly.net#ipinfo199.232.69.1943.打开https://github.com.ipaddress.com/assets-cdn.github.com185.199.108.153 18...

2021-12-05 20:47:56 466

空空如也

空空如也