长腿老头o3o-CSDN博客

原创 pytorch 中的 autograd.grad() 函数

另：如果因变量是标量的元组，自变量是tensor矩阵（[1, d]），则结果是每个标量对自变量求导的和。

2024-11-19 16:45:13 236

原创用指针表示一个数组时，对该指针的下标访问得到的是该数组在对应下标位置的值。

thread_handles[thread]才是第thread位置的地址。C语言中，用指针表示一个数组时，对该指针的下标访问得到的是该数组在对应下标位置的值。thread_handles是由malloc分配的一块存储空间的首地址。表示的是这块存储空间中第thread位置的。表示第thread位置的。

2024-10-07 13:24:06 171 3

原创 Python collections.defaultdict(int)

使用 collections.defaultdict(int) 可以简化元素计数的实现。defaultdict是一个字典子类，当访问不存在的键时，会自动为其创建一个默认值0。如果直接定义字典，需要判断一下元素是否在字典中。

2024-08-06 23:18:59 278 1

原创 Tools - argparse

但seed一般不用传入，没有设置required=True，即不是必须要传入的参数，此处知识举个例子。更规范地写代码，提高代码的复用性。

2024-05-15 21:17:00 208 2

原创从语言模型的hidden_states到logit，经历了什么变换

从logits到token得到logits之后，找到分数最大的，对应词表中的单词就是next token。

2024-05-08 16:06:46 1820

原创 [已解决] WARNING: Retrying (Retry(total=1, connect=None, read=None, redirect=None, status=None))

Linux服务器安装python包的时候突然报错，之前还是好的，报错内容为多条的：（这里随意以为一个包：pendulum为例）这个配置表示您的服务器正在使用本地（即服务器自身）的 SOCKS 代理服务器，该代理服务器正在监听在。如果还出现上述问题，可看一下pip的配置文件 vim ~/.pip/pip.conf。命令将通过该代理服务器进行网络请求，以便在访问外部网络资源时使用代理。是本地回环地址，表示在服务器上自己访问自己，而。端口通常用于 SOCKS 代理服务。把这一行删除问题解决。小伙伴可参考下 :)

2024-05-03 17:31:12 3842 1

原创 llama-2-7b-chat-hf 参数及size

重要的：32层，32个attention heads，词表大小为 32000。

2024-04-19 11:54:44 1516 1

原创算法题目 Python

记录有意思的算法题，大都不是自己写的，学习一下 >_<

2024-04-08 12:40:21 193 2

原创 np.concatenate对list操作

【代码】np.concatenate对list操作。

2024-04-02 18:01:43 177 1

原创蓝桥杯题目

两种糖果分别有9个和16个，要全部分给7个小朋友，每个小朋友得到的糖果总数最少为2个最多为5个，问有多少种不同的分法，糖果必须全部分完。如果有其中一个小朋友在两种方案中分到的糖果不完全相同，这两种方案就算作不同的方案。

2024-03-30 18:30:23 279 1

原创大语言模型理论与实践阅读笔记

开一个专栏记录自己的读书笔记，希望可以鞭策自己把这本好书阅读完。

2024-03-03 21:51:45 479 1

原创 Leetcode hot100 刷题记录 (python)

【代码】Leetcode hot100 刷题记录 (python)

2024-02-20 17:20:40 1359 2

原创深刻感受到LLM对自己所处行业的改变

十几天就有新的LLM出现，榜单不断刷新，究其本质，都是Decoder-only。没有算力，没有资源又当如何自处，两极分化会不会越来越严重。多少T的数据，百万张显卡，堆出一个无所不能的LLM。科研的门槛究竟是上升还是下降。

2024-01-19 18:19:08 392 3

原创 torch版本

torch你更新版本能不能考虑下别人的感受，能不能兼容一下…低了，不能deepspeed分布式。高了和CUDA不匹配。模型的参数名字都要改…

2024-01-18 19:54:46 383 1

原创午后散步有感1.18

生而为人，既然能够触及世间未见之繁盛，也应理解世间仍有未见之萧瑟。

2024-01-18 17:30:36 442 1

原创 Baichuan2-7b-Base 裁剪

并且添加Ignore mismatched size=True 没有用（可能没找对地方），明天仔细阅读Transformers的modelling_ utils.py 和 torch.nn里面的module.py😭架构好复杂，代码好长，心累。1. 终于完成了一个模型裁剪（很简单的）-微调（lora，速度据说为全量的1/8）-推理-评测。其实并没有想象中那么难，一切都是可以入手的，没有人一开始什么都会的。4. 仅修改加载后的statedict，不能和config保持一致的话，还是会报错。

2024-01-17 22:44:09 347

原创无题 1.16

3. 磨刀不误砍柴工，写完代码不能凭感觉，一定要反复验证没有问题再继续（特别是对于代码能力不好的😭），不然是会错付的。2. 推理prompt一定要和微调数据的格式保持一致。实习记录2024.1.16。

2024-01-16 22:14:57 393 1

原创 Linux新环境配置

登录一台新的机器，su自己的用户后（linux输密码是不回显的😭）1. 安装conda，修改conda的配置文件～/.condarc。2.修改bash的配置文件～/.bashrc。细节又忘了具体的还要再查。3.设置代理，pip的源。

2024-01-15 23:09:52 390 2

原创 NLP&LLM实战记录踩坑

1. xml格式的大文件也可以直接head/tail -n 大概看看内容形式，不必直接用Python包解析。3. Python不要用太高的版本，3.8可以就不要用3.10，会有一些奇怪的问题😭。2. gcc版本更新，不用更新整个系统gcc，重定向即可（还没搞会明天搞会一下）4. git clone github的项目太慢，修改代理配置。linux系统 CUDA11.6。实习心得 2024.1.15。

2024-01-15 23:04:55 433