自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Tools - argparse

但seed一般不用传入,没有设置required=True,即不是必须要传入的参数,此处知识举个例子。更规范地写代码,提高代码的复用性。

2024-05-15 21:17:00 152 2

原创 从语言模型的hidden_states到logit,经历了什么变换

从logits到token得到logits之后,找到分数最大的,对应词表中的单词就是next token。

2024-05-08 16:06:46 602

原创 gpt2结构

【代码】gpt2结构。

2024-05-05 15:34:14 224 3

原创 [已解决] WARNING: Retrying (Retry(total=1, connect=None, read=None, redirect=None, status=None))

Linux服务器安装python包的时候突然报错,之前还是好的,报错内容为多条的:(这里随意以为一个包:pendulum为例)这个配置表示您的服务器正在使用本地(即服务器自身)的 SOCKS 代理服务器,该代理服务器正在监听在。如果还出现上述问题,可看一下pip的配置文件 vim ~/.pip/pip.conf。命令将通过该代理服务器进行网络请求,以便在访问外部网络资源时使用代理。是本地回环地址,表示在服务器上自己访问自己,而。端口通常用于 SOCKS 代理服务。把这一行删除问题解决。小伙伴可参考下 :)

2024-05-03 17:31:12 1365 1

原创 llama-2-7b-chat-hf 参数及size

重要的:32层,32个attention heads,词表大小为 32000。

2024-04-19 11:54:44 296 1

原创 算法题目 Python

记录有意思的算法题, 大都不是自己写的,学习一下 >_<

2024-04-08 12:40:21 159 2

原创 np.concatenate对list操作

【代码】np.concatenate对list操作。

2024-04-02 18:01:43 99 1

原创 蓝桥杯题目

两种糖果分别有9个和16个,要全部分给7个小朋友,每个小朋友得到的糖果总数最少为2个最多为5个,问有多少种不同的分法,糖果必须全部分完。如果有其中一个小朋友在两种方案中分到的糖果不完全相同,这两种方案就算作不同的方案。

2024-03-30 18:30:23 217 1

原创 大语言模型理论与实践阅读笔记

开一个专栏记录自己的读书笔记,希望可以鞭策自己把这本好书阅读完。

2024-03-03 21:51:45 397 1

原创 Leetcode hot100 刷题记录 (python)

【代码】Leetcode hot100 刷题记录 (python)

2024-02-20 17:20:40 546 2

原创 深刻感受到LLM对自己所处行业的改变

十几天就有新的LLM出现,榜单不断刷新,究其本质,都是Decoder-only。没有算力,没有资源又当如何自处,两极分化会不会越来越严重。多少T的数据,百万张显卡,堆出一个无所不能的LLM。科研的门槛究竟是上升还是下降。

2024-01-19 18:19:08 359 3

原创 torch版本

torch你更新版本能不能考虑下别人的感受,能不能兼容一下…低了,不能deepspeed分布式。高了 和CUDA不匹配。模型的参数名字都要改…

2024-01-18 19:54:46 344 1

原创 午后散步有感1.18

生而为人,既然能够触及世间未见之繁盛,也应理解世间仍有未见之萧瑟。

2024-01-18 17:30:36 384 1

原创 Baichuan2-7b-Base 裁剪

并且添加Ignore mismatched size=True 没有用(可能没找对地方),明天仔细阅读Transformers的modelling_ utils.py 和 torch.nn里面的module.py😭架构好复杂,代码好长,心累。1. 终于完成了一个模型裁剪(很简单的)-微调(lora,速度据说为全量的1/8)-推理-评测。其实并没有想象中那么难,一切都是可以入手的,没有人一开始什么都会的。4. 仅修改加载后的statedict,不能和config保持一致的话,还是会报错。

2024-01-17 22:44:09 301

原创 无题 1.16

3. 磨刀不误砍柴工,写完代码不能凭感觉,一定要反复验证没有问题再继续(特别是对于代码能力不好的😭),不然是会错付的。2. 推理prompt一定要和微调数据的格式保持一致。实习记录2024.1.16。

2024-01-16 22:14:57 351

原创 Linux新环境配置

登录一台新的机器,su自己的用户后(linux输密码是不回显的😭)1. 安装conda,修改conda的配置文件~/.condarc。2.修改bash的配置文件~/.bashrc。细节又忘了 具体的还要再查。3.设置代理,pip的源。

2024-01-15 23:09:52 320 2

原创 NLP&LLM实战 记录踩坑

1. xml格式的大文件也可以直接head/tail -n 大概看看内容形式,不必直接用Python包解析。3. Python不要用太高的版本,3.8可以就不要用3.10,会有一些奇怪的问题😭。2. gcc版本更新,不用更新整个系统gcc,重定向即可(还没搞会 明天搞会一下)4. git clone github的项目太慢,修改代理配置。linux系统 CUDA11.6。实习心得 2024.1.15。

2024-01-15 23:04:55 393

原创 baichuan2-7B-Base微调 环境问题

被这个问题深深困扰,调了快一周,ninja,deepspeed,torch,torch.cuda ,cuda…

2024-01-15 17:49:25 381 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除