- 博客(226)
- 资源 (1)
- 收藏
- 关注
原创 libcudart.so libcuda.so之间什么关系呀?
libcudart.so libcuda.so之间什么关系呀?我看网上的文章说这两个不能相互替代,但是在。
2024-06-25 17:24:29 103
原创 [Debug] 在vscode中打开的`.ipynb` 时的路径可能会是第一次打开的位置,有时候就会出现无法import的问题,可以用这个代码查看一下当前的路径
【代码】[Debug] 在vscode中打开的`.ipynb` 时的路径可能会是第一次打开的位置,有时候就会出现无法import的问题,可以用这个代码查看一下当前的路径。
2024-05-27 13:48:18 220
原创 [Codes] 利用Linux Shell并行复制文件
本文记录一段Shell代码,用于将某些目录下所有的一级子文件进行遍历,得到其中想要保存的文件类型(在本文中是.ckpt结尾的文件),并将其备份到另一个文件夹中。与其他方法不同,本文采用。方式执行cp命令,在执行速度上更快。
2023-12-23 18:16:36 223
原创 [其他] 在linux上采用的极快的删除方法
我的数据集的格式是当前文件中有3000+个文件夹,我想并行地删除。所以,我就直接将这3000个文件名输入到一个文本文件中,然后使用nohup同时执行删除命令,让cpu自行调度。
2023-09-25 16:23:08 234
原创 column-wise 与 row-wise 之间有什么区别?
中,这些实例以行的方式堆叠,形成了一个同样包含 5 层的神经网络。两种方式训练出来的模型都是一样的,只不过其中参数的排列方式不同。中,这 5 个实例以列的方式堆叠在一起,形成了一个包含 5 层的神经网络;在 PyTorch 中,“column-wise” 可以通过。函数来实现,“row-wise” 可以通过。中包含了 5 个相同的。
2023-05-04 17:18:02 909 1
原创 挺有趣的,attention的mask可能有多种用法
输入的mask与输入的seq长度不匹配时:有可能是需要mask掉prefixes。如上图所示,输入的mask是。
2023-04-19 10:28:36 517
原创 【Python】python setup.py install 与 pip install -e . 有什么区别呢?
而 pip install -e . 则是将包安装在当前目录下,并且是可编辑的,也就是说你可以在这个目录下修改源代码,不需要重新安装包。这种方式适用于你正在开发这个包,需要经常进行修改和测试。python setup.py install 会将包安装到系统目录中,这个包不再是可编辑的(不能在安装后再修改源代码,除非重新安装)。这种方式适用于你想要在多个项目中使用这个包。下面的答案来自ChatGPT3.5。
2023-03-29 16:20:10 1685
原创 [python tools] 今天看到另一个配置工具 YACS,所以做下笔记
实际上就只是把别人的readme翻译了一下样例代码: https://github.com/Wuziyi616/multi_part_assembly/blob/master/docs/config.md。
2023-03-25 16:24:07 748
原创 【debug】自定义Dataset.__getitem__ RuntimeError: each element in list of batch should be of equal size
【代码】【debug】自定义Dataset.__getitem__ RuntimeError: each element in list of batch should be of equal size。
2023-02-27 00:27:51 471 1
原创 【debug】常见的问题,怎么引用上一层目录
可以参考文章:https://zhuanlan.zhihu.com/p/64893308。本质上就是利用sys在路径中添加上要导入库的位置。根据代码执行方式的不同,有两种解决方法。
2023-02-25 13:52:12 212
原创 【debug】没有设置可训练参数时,训练集的准确率还在发生变化,可能是对训练集数据数据增强的原因。
没有设置可训练参数时,训练集的准确率还在发生变化,可能是对训练集数据数据增强的原因。
2023-02-24 21:55:04 109
原创 【Debug】 运行时的 batch_size 跟config中的 batch_size 不是一个东西。
回答很简单,emmm,因为在最后一个batch中,数据可能不足一个设定的batch_size。一开始我还在嘲笑,为啥作者的代码要利用这个shape信息来动态地获取batch_size。
2023-02-07 11:21:20 338 2
原创 HyperTransformer: Model Generation for Supervised and Semi-Supervised Few-Shot Learning
这篇文章中提出了HyperTransformer,基于Transformer,用于监督/半监督 few-shot learning。方法是利用一个high-capacity Transformer model来生成一个small CNN model,这个小cnn是基于一个具体的任务,作者认为这篇文章所提出的方法能够有效地隔断large task space与某个individual 任务的复杂度task space。
2023-01-26 12:30:51 605 1
原创 2021 ACL Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks
阅读这篇文章的目的是为了了解hypernet,相关代码 https://github.com/rabeehk/hyperformerparameter-efficient fine-tuning的方法依赖于引入一个adapter module。这篇文章使用一个来为每一个tasks和每一个layer中生成adapter,which is condition on task、adapter position、layer id in a transformer model.
2023-01-18 15:46:09 380
原创 paper writing: 句式,用于在两种方法中做一个平衡
我们这篇文章中的方法可以在目前的两种方法中取得一个平衡。这篇文章来自 hypernetwork, 2017 google team。
2023-01-17 20:36:29 133
原创 Code for hypernetworks
这篇文章将介绍怎么使用hypernetworks来完成一些实验,本实验基于https://github.com/g1910/HyperNetworks.git。
2023-01-15 22:39:45 324
原创 Code for VeLO 2: Training Versatile Learned Optimizers by Scaling Up
上一篇文章已经介绍了怎么训练一个MLP网络,这篇文章将介绍一下怎么用VeLO训练resnets1//1.3f.3f.3f.3f。
2023-01-15 22:01:21 194
原创 Code for VeLO 1: Training Versatile Learned Optimizers by Scaling Up
这篇文章基于https://colab.research.google.com/drive/1-ms12IypE-EdDSNjhFMdRdBbMnH94zpH#scrollTo=RQBACAPQZyB-,将介绍使用learned optimizer in the VeLO family:使用Optax style的优化器定义和执行一个简单的训练循环绘制一下loss的图像
2023-01-15 22:00:36 372 1
原创 Tools: python objprint
推荐一个挺好用的打印python object的库: objprint https://github.com/gaogaotiantian/objprint。
2023-01-15 17:49:52 318
原创 2022 VeLO: Training Versatile Learned Optimizers by Scaling Up
While deep learning models have replaced hand-designed features across many domains,these models are still trained with hand-designed optimizers. In this work, we leverage the samescaling approach behind the success of deep learning to learn versatile op
2023-01-14 17:13:14 654 1
原创 Why Can GPT Learn In-Context?
这篇文章的发现:Theoretically, we figure out that the Transformer attention has a dual form of gradient descent based optimization. 从理论上,作者发现Transformer的注意力机制同时具有基于梯度下降优化的双重形式。
2023-01-12 23:13:09 2284
原创 Prompt: No !!!
Lu et al., 2022], etc. (对prompt的措辞具有敏感性)prompt-based的方法在NLP中引起风暴。: Prompting generally performs worse than fine-tuning [Brown et al., 2020]. (prompt的结果通常是要比fine-tuning的结果要差很多的)prompt tuning 在一些比较小的model size上和一些比较困难的task上表现不好!Prompt 这个方法实际上并不是很好。
2023-01-11 22:30:58 459
原创 2021 kdd Controllable generation from pre-trained language models via inverse prompting
inverse prompting的核心是使用生成的文本,来反向地预测prompt(在beam search阶段),这样的话就能够提高prompt与生成文本之间的相关性,进而提高controllability。这篇文章中采用的是一个inverse prompt的方法,来增强prompt的控制的能力。在之后的prompt的方法中(),我是不是也可以采用这篇文章中所提到的方法来加强prompt与生成结果之间的关联性。这篇文章,通过inverse prompt来对控制生成的文本朝着相关联的方向生成。
2023-01-10 16:23:08 205
原创 iclr 2022 Compositional attention: Disentangling search and retrieval
要想实现c这种检测,value的向量是需要能够投影出来location的信息,q和k的向量需要映射为color的信息。比如在下面这张图中,对于retrieve location的操作在multi-head attention中进行了两次,这造成了参数的冗余。虽然目前我还没有看完这篇文章,但是我猜测这篇文章的方法呢,是利用了多个value的投影,在这个retrieval的阶段,又多了一次选择,而不是仅仅通过mutli-head的方式进行选择。b. 可以动态地共享retrieval的结果给所有的search。
2023-01-10 15:44:59 318
原创 2022 general purpose in-context learning by meta-learning transformers
机器学习需要去显示地定义 losses, architectures, and optimizers,meta-learning(或者是learning to learn)目的是学习这些aspects,然后希望用尽可能少的手工操作来解锁更多的能力。with。
2023-01-10 12:07:34 571
原创 利用opencv将从torchvision中加载的Cirfar10数据集再转成图片
利用opencv将从torchvision中加载的Cirfar10数据集再转成图片
2022-12-25 19:09:29 245
原创 利用opencv将从torchvision中加载的Cirfar10数据集再转成图片
利用opencv将从torchvision中加载的Cirfar10数据集再转成图片
2022-12-25 19:04:38 125
原创 Bert模型学习笔记
From https://www.bilibili.com/video/BV1Ey4y1874y emmm 讲实话这个视频太简单了,不建议看。可以看看李沐的视频:https://www.bilibili.com/video/BV1PL411M7eQ。
2022-10-07 22:01:06 371
为啥python的gc不能释放内存呢?
2023-03-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人