自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(226)
  • 资源 (1)
  • 收藏
  • 关注

原创 【代码自用】OpenGL的基础库安装

【代码】【代码自用】OpenGL的基础库安装。

2024-10-27 15:17:33 379

原创 【梯度更新出错】还没找到原因

【代码】【梯度更新出错】还没找到原因。

2024-08-27 09:46:02 136 1

原创 pip安装pytorch3d时如何快速确定版本

【代码】pip安装pytorch3d时如何快速确定版本。

2024-07-07 15:57:23 233

原创 libcudart.so libcuda.so之间什么关系呀?

libcudart.so libcuda.so之间什么关系呀?我看网上的文章说这两个不能相互替代,但是在。

2024-06-25 17:24:29 103

原创 [Debug] 在vscode中打开的`.ipynb` 时的路径可能会是第一次打开的位置,有时候就会出现无法import的问题,可以用这个代码查看一下当前的路径

【代码】[Debug] 在vscode中打开的`.ipynb` 时的路径可能会是第一次打开的位置,有时候就会出现无法import的问题,可以用这个代码查看一下当前的路径。

2024-05-27 13:48:18 220

原创 [Codes] 利用Linux Shell并行复制文件

本文记录一段Shell代码,用于将某些目录下所有的一级子文件进行遍历,得到其中想要保存的文件类型(在本文中是.ckpt结尾的文件),并将其备份到另一个文件夹中。与其他方法不同,本文采用。方式执行cp命令,在执行速度上更快。

2023-12-23 18:16:36 223

原创 [其他] 在linux上采用的极快的删除方法

我的数据集的格式是当前文件中有3000+个文件夹,我想并行地删除。所以,我就直接将这3000个文件名输入到一个文本文件中,然后使用nohup同时执行删除命令,让cpu自行调度。

2023-09-25 16:23:08 234

原创 column-wise 与 row-wise 之间有什么区别?

中,这些实例以行的方式堆叠,形成了一个同样包含 5 层的神经网络。两种方式训练出来的模型都是一样的,只不过其中参数的排列方式不同。中,这 5 个实例以列的方式堆叠在一起,形成了一个包含 5 层的神经网络;在 PyTorch 中,“column-wise” 可以通过。函数来实现,“row-wise” 可以通过。中包含了 5 个相同的。

2023-05-04 17:18:02 909 1

原创 挺有趣的,attention的mask可能有多种用法

输入的mask与输入的seq长度不匹配时:有可能是需要mask掉prefixes。如上图所示,输入的mask是。

2023-04-19 10:28:36 517

原创 【Python】python setup.py install 与 pip install -e . 有什么区别呢?

而 pip install -e . 则是将包安装在当前目录下,并且是可编辑的,也就是说你可以在这个目录下修改源代码,不需要重新安装包。这种方式适用于你正在开发这个包,需要经常进行修改和测试。python setup.py install 会将包安装到系统目录中,这个包不再是可编辑的(不能在安装后再修改源代码,除非重新安装)。这种方式适用于你想要在多个项目中使用这个包。下面的答案来自ChatGPT3.5。

2023-03-29 16:20:10 1685

原创 [python tools] 今天看到另一个配置工具 YACS,所以做下笔记

实际上就只是把别人的readme翻译了一下样例代码: https://github.com/Wuziyi616/multi_part_assembly/blob/master/docs/config.md。

2023-03-25 16:24:07 748

原创 [debug] python 内存不能释放

为啥python的gc不能释放内存呢?这个是正常现象吗?

2023-03-06 16:23:57 538

原创 【debug】自定义Dataset.__getitem__ RuntimeError: each element in list of batch should be of equal size

【代码】【debug】自定义Dataset.__getitem__ RuntimeError: each element in list of batch should be of equal size。

2023-02-27 00:27:51 471 1

原创 【debug】常见的问题,怎么引用上一层目录

可以参考文章:https://zhuanlan.zhihu.com/p/64893308。本质上就是利用sys在路径中添加上要导入库的位置。根据代码执行方式的不同,有两种解决方法。

2023-02-25 13:52:12 212

原创 【debug】没有设置可训练参数时,训练集的准确率还在发生变化,可能是对训练集数据数据增强的原因。

没有设置可训练参数时,训练集的准确率还在发生变化,可能是对训练集数据数据增强的原因。

2023-02-24 21:55:04 109

原创 【Debug】 运行时的 batch_size 跟config中的 batch_size 不是一个东西。

回答很简单,emmm,因为在最后一个batch中,数据可能不足一个设定的batch_size。一开始我还在嘲笑,为啥作者的代码要利用这个shape信息来动态地获取batch_size。

2023-02-07 11:21:20 338 2

原创 真是太棒了,可以在win11上使用unbuntu的系统命令

我其实是好久没有用过win的系统了,这次用还是听惊喜的,可以看到下面的这个图。

2023-01-28 23:17:03 217

原创 HyperTransformer: Model Generation for Supervised and Semi-Supervised Few-Shot Learning

这篇文章中提出了HyperTransformer,基于Transformer,用于监督/半监督 few-shot learning。方法是利用一个high-capacity Transformer model来生成一个small CNN model,这个小cnn是基于一个具体的任务,作者认为这篇文章所提出的方法能够有效地隔断large task space与某个individual 任务的复杂度task space。

2023-01-26 12:30:51 605 1

原创 python 包引入顺序错误:torch sklearn fedml

今天遇到的这个问题真的是奇葩,新年的第一个奇葩问题。

2023-01-24 17:22:20 240

原创 2021 ACL Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks

阅读这篇文章的目的是为了了解hypernet,相关代码 https://github.com/rabeehk/hyperformerparameter-efficient fine-tuning的方法依赖于引入一个adapter module。这篇文章使用一个来为每一个tasks和每一个layer中生成adapter,which is condition on task、adapter position、layer id in a transformer model.

2023-01-18 15:46:09 380

原创 2017 hypernetworks 笔记

这篇文章来自谷歌的一篇文章。

2023-01-17 22:31:12 2501

原创 paper writing: 句式,用于在两种方法中做一个平衡

我们这篇文章中的方法可以在目前的两种方法中取得一个平衡。这篇文章来自 hypernetwork, 2017 google team。

2023-01-17 20:36:29 133

原创 Code for hypernetworks

这篇文章将介绍怎么使用hypernetworks来完成一些实验,本实验基于https://github.com/g1910/HyperNetworks.git。

2023-01-15 22:39:45 324

原创 Code for VeLO 2: Training Versatile Learned Optimizers by Scaling Up

上一篇文章已经介绍了怎么训练一个MLP网络,这篇文章将介绍一下怎么用VeLO训练resnets1//1.3f.3f.3f.3f。

2023-01-15 22:01:21 194

原创 Code for VeLO 1: Training Versatile Learned Optimizers by Scaling Up

这篇文章基于https://colab.research.google.com/drive/1-ms12IypE-EdDSNjhFMdRdBbMnH94zpH#scrollTo=RQBACAPQZyB-,将介绍使用learned optimizer in the VeLO family:使用Optax style的优化器定义和执行一个简单的训练循环绘制一下loss的图像

2023-01-15 22:00:36 372 1

原创 Tools: python objprint

推荐一个挺好用的打印python object的库: objprint https://github.com/gaogaotiantian/objprint。

2023-01-15 17:49:52 318

原创 2022 VeLO: Training Versatile Learned Optimizers by Scaling Up

While deep learning models have replaced hand-designed features across many domains,these models are still trained with hand-designed optimizers. In this work, we leverage the samescaling approach behind the success of deep learning to learn versatile op

2023-01-14 17:13:14 654 1

原创 Why Can GPT Learn In-Context?

这篇文章的发现:Theoretically, we figure out that the Transformer attention has a dual form of gradient descent based optimization. 从理论上,作者发现Transformer的注意力机制同时具有基于梯度下降优化的双重形式。

2023-01-12 23:13:09 2284

原创 Prompt: No !!!

Lu et al., 2022], etc. (对prompt的措辞具有敏感性)prompt-based的方法在NLP中引起风暴。: Prompting generally performs worse than fine-tuning [Brown et al., 2020]. (prompt的结果通常是要比fine-tuning的结果要差很多的)prompt tuning 在一些比较小的model size上和一些比较困难的task上表现不好!Prompt 这个方法实际上并不是很好。

2023-01-11 22:30:58 459

原创 Hypernet

Hypernet起源于2017年 iclr的一篇文章 hypernetworks。

2023-01-11 16:23:31 247

原创 2021 kdd Controllable generation from pre-trained language models via inverse prompting

inverse prompting的核心是使用生成的文本,来反向地预测prompt(在beam search阶段),这样的话就能够提高prompt与生成文本之间的相关性,进而提高controllability。这篇文章中采用的是一个inverse prompt的方法,来增强prompt的控制的能力。在之后的prompt的方法中(),我是不是也可以采用这篇文章中所提到的方法来加强prompt与生成结果之间的关联性。这篇文章,通过inverse prompt来对控制生成的文本朝着相关联的方向生成。

2023-01-10 16:23:08 205

原创 iclr 2022 Compositional attention: Disentangling search and retrieval

要想实现c这种检测,value的向量是需要能够投影出来location的信息,q和k的向量需要映射为color的信息。比如在下面这张图中,对于retrieve location的操作在multi-head attention中进行了两次,这造成了参数的冗余。虽然目前我还没有看完这篇文章,但是我猜测这篇文章的方法呢,是利用了多个value的投影,在这个retrieval的阶段,又多了一次选择,而不是仅仅通过mutli-head的方式进行选择。b. 可以动态地共享retrieval的结果给所有的search。

2023-01-10 15:44:59 318

原创 2022 general purpose in-context learning by meta-learning transformers

机器学习需要去显示地定义 losses, architectures, and optimizers,meta-learning(或者是learning to learn)目的是学习这些aspects,然后希望用尽可能少的手工操作来解锁更多的能力。with。

2023-01-10 12:07:34 571

原创 利用opencv将从torchvision中加载的Cirfar10数据集再转成图片

利用opencv将从torchvision中加载的Cirfar10数据集再转成图片

2022-12-25 19:09:29 245

原创 利用opencv将从torchvision中加载的Cirfar10数据集再转成图片

利用opencv将从torchvision中加载的Cirfar10数据集再转成图片

2022-12-25 19:04:38 125

原创 pytorch 如何从checkpoints中继续训练

pytorch 如何从checkpoints中继续训练

2022-12-01 14:55:00 1121

原创 【学习笔记】Pytorch LSTM/RNN 代码

【代码】【学习笔记】Pytorch LSTM/RNN 代码。

2022-11-12 09:49:49 452

原创 Bert模型学习笔记

From https://www.bilibili.com/video/BV1Ey4y1874y emmm 讲实话这个视频太简单了,不建议看。可以看看李沐的视频:https://www.bilibili.com/video/BV1PL411M7eQ。

2022-10-07 22:01:06 371

原创 自回归任务是什么?在哪里会用到呢?

自回归语言模型是什么?在哪里有听到过这个概念。

2022-10-04 15:46:01 784

原创 【学习笔记】用代码理解一下雅克比行列式

解释一下雅克比行列式

2022-09-22 17:22:35 519

ccf用算法模板【1积分,emmm,就当免费下载吧,点个关注,交个朋友】

算法模板,主要为ccf认证准备的材料,内容包括树状数组、线段树、图论算法、少量数论算法等。

2018-09-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除