文三路张同学-CSDN博客

中，这些实例以行的方式堆叠，形成了一个同样包含 5 层的神经网络。两种方式训练出来的模型都是一样的，只不过其中参数的排列方式不同。中，这 5 个实例以列的方式堆叠在一起，形成了一个包含 5 层的神经网络；在 PyTorch 中，“column-wise” 可以通过。函数来实现，“row-wise” 可以通过。中包含了 5 个相同的。

2023-05-04 17:18:02 909 1

原创挺有趣的，attention的mask可能有多种用法

输入的mask与输入的seq长度不匹配时：有可能是需要mask掉prefixes。如上图所示，输入的mask是。

2023-04-19 10:28:36 517

原创【Python】python setup.py install 与 pip install -e . 有什么区别呢？

而 pip install -e . 则是将包安装在当前目录下，并且是可编辑的，也就是说你可以在这个目录下修改源代码，不需要重新安装包。这种方式适用于你正在开发这个包，需要经常进行修改和测试。python setup.py install 会将包安装到系统目录中，这个包不再是可编辑的（不能在安装后再修改源代码，除非重新安装）。这种方式适用于你想要在多个项目中使用这个包。下面的答案来自ChatGPT3.5。

2023-03-29 16:20:10 1685

原创 [python tools] 今天看到另一个配置工具 YACS，所以做下笔记

实际上就只是把别人的readme翻译了一下样例代码: https://github.com/Wuziyi616/multi_part_assembly/blob/master/docs/config.md。

2023-03-25 16:24:07 748

原创 [debug] python 内存不能释放

为啥python的gc不能释放内存呢？这个是正常现象吗？

2023-03-06 16:23:57 538

原创【debug】自定义Dataset.getitem RuntimeError: each element in list of batch should be of equal size

【代码】【debug】自定义Dataset.__getitem__ RuntimeError: each element in list of batch should be of equal size。

2023-02-27 00:27:51 471 1

原创【debug】常见的问题，怎么引用上一层目录

可以参考文章：https://zhuanlan.zhihu.com/p/64893308。本质上就是利用sys在路径中添加上要导入库的位置。根据代码执行方式的不同，有两种解决方法。

2023-02-25 13:52:12 212

原创【debug】没有设置可训练参数时，训练集的准确率还在发生变化，可能是对训练集数据数据增强的原因。

没有设置可训练参数时，训练集的准确率还在发生变化，可能是对训练集数据数据增强的原因。

2023-02-24 21:55:04 109

原创【Debug】运行时的 batch_size 跟config中的 batch_size 不是一个东西。

回答很简单，emmm，因为在最后一个batch中，数据可能不足一个设定的batch_size。一开始我还在嘲笑，为啥作者的代码要利用这个shape信息来动态地获取batch_size。

2023-02-07 11:21:20 338 2

原创真是太棒了，可以在win11上使用unbuntu的系统命令

我其实是好久没有用过win的系统了，这次用还是听惊喜的，可以看到下面的这个图。

2023-01-28 23:17:03 217

原创 HyperTransformer: Model Generation for Supervised and Semi-Supervised Few-Shot Learning

这篇文章中提出了HyperTransformer，基于Transformer，用于监督/半监督 few-shot learning。方法是利用一个high-capacity Transformer model来生成一个small CNN model，这个小cnn是基于一个具体的任务，作者认为这篇文章所提出的方法能够有效地隔断large task space与某个individual 任务的复杂度task space。

2023-01-26 12:30:51 605 1

原创 python 包引入顺序错误：torch sklearn fedml

今天遇到的这个问题真的是奇葩，新年的第一个奇葩问题。

2023-01-24 17:22:20 240

原创 2021 ACL Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks

阅读这篇文章的目的是为了了解hypernet，相关代码 https://github.com/rabeehk/hyperformerparameter-efficient fine-tuning的方法依赖于引入一个adapter module。这篇文章使用一个来为每一个tasks和每一个layer中生成adapter，which is condition on task、adapter position、layer id in a transformer model.

2023-01-18 15:46:09 380

原创 2017 hypernetworks 笔记

这篇文章来自谷歌的一篇文章。

2023-01-17 22:31:12 2501

原创 paper writing: 句式，用于在两种方法中做一个平衡

我们这篇文章中的方法可以在目前的两种方法中取得一个平衡。这篇文章来自 hypernetwork, 2017 google team。

2023-01-17 20:36:29 133

原创 Code for hypernetworks

这篇文章将介绍怎么使用hypernetworks来完成一些实验，本实验基于https://github.com/g1910/HyperNetworks.git。

2023-01-15 22:39:45 324

原创 Code for VeLO 2: Training Versatile Learned Optimizers by Scaling Up

上一篇文章已经介绍了怎么训练一个MLP网络，这篇文章将介绍一下怎么用VeLO训练resnets1//1.3f.3f.3f.3f。

2023-01-15 22:01:21 194

原创 Code for VeLO 1: Training Versatile Learned Optimizers by Scaling Up

这篇文章基于https://colab.research.google.com/drive/1-ms12IypE-EdDSNjhFMdRdBbMnH94zpH#scrollTo=RQBACAPQZyB-，将介绍使用learned optimizer in the VeLO family:使用Optax style的优化器定义和执行一个简单的训练循环绘制一下loss的图像

2023-01-15 22:00:36 372 1

原创 Tools: python objprint

推荐一个挺好用的打印python object的库: objprint https://github.com/gaogaotiantian/objprint。

2023-01-15 17:49:52 318

原创 2022 VeLO: Training Versatile Learned Optimizers by Scaling Up

While deep learning models have replaced hand-designed features across many domains,these models are still trained with hand-designed optimizers. In this work, we leverage the samescaling approach behind the success of deep learning to learn versatile op

2023-01-14 17:13:14 654 1

原创 Why Can GPT Learn In-Context?

这篇文章的发现：Theoretically, we figure out that the Transformer attention has a dual form of gradient descent based optimization. 从理论上，作者发现Transformer的注意力机制同时具有基于梯度下降优化的双重形式。

2023-01-12 23:13:09 2284

原创 Prompt: No !!!

Lu et al., 2022], etc. （对prompt的措辞具有敏感性）prompt-based的方法在NLP中引起风暴。: Prompting generally performs worse than fine-tuning [Brown et al., 2020]. （prompt的结果通常是要比fine-tuning的结果要差很多的）prompt tuning 在一些比较小的model size上和一些比较困难的task上表现不好！Prompt 这个方法实际上并不是很好。

2023-01-11 22:30:58 459

原创 Hypernet

Hypernet起源于2017年 iclr的一篇文章 hypernetworks。

2023-01-11 16:23:31 247

原创 2021 kdd Controllable generation from pre-trained language models via inverse prompting

inverse prompting的核心是使用生成的文本，来反向地预测prompt（在beam search阶段），这样的话就能够提高prompt与生成文本之间的相关性，进而提高controllability。这篇文章中采用的是一个inverse prompt的方法，来增强prompt的控制的能力。在之后的prompt的方法中（），我是不是也可以采用这篇文章中所提到的方法来加强prompt与生成结果之间的关联性。这篇文章，通过inverse prompt来对控制生成的文本朝着相关联的方向生成。

2023-01-10 16:23:08 205

原创 iclr 2022 Compositional attention: Disentangling search and retrieval

要想实现c这种检测，value的向量是需要能够投影出来location的信息，q和k的向量需要映射为color的信息。比如在下面这张图中，对于retrieve location的操作在multi-head attention中进行了两次，这造成了参数的冗余。虽然目前我还没有看完这篇文章，但是我猜测这篇文章的方法呢，是利用了多个value的投影，在这个retrieval的阶段，又多了一次选择，而不是仅仅通过mutli-head的方式进行选择。b. 可以动态地共享retrieval的结果给所有的search。

2023-01-10 15:44:59 318

ccf用算法模板【1积分，emmm，就当免费下载吧，点个关注，交个朋友】

为啥python的gc不能释放内存呢？