IGLM复现笔记

最新推荐文章于 2024-07-25 11:12:43 发布

码农吊兴

最新推荐文章于 2024-07-25 11:12:43 发布

阅读量648

点赞数 6

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74366152/article/details/140530653

版权

疑问：

0.为什么gpt模型还要加掩码，这个掩码是什么鬼？

初步理解：掩码掩盖掉已知序列的一部分后，将序列作为输入的前部分继续生成后部分，只是前面有一部分被掩盖掉了

最后理解：初步理解有问题，生成式模型其实是生成的是掩码部分的序列

1.大数据量应该存放在哪里

相关文章大模型存储实践：性能、成本与多云 - JuiceFS 博客

思路：HDFS分布式系统，nosql数据库

我们采用 HDFS、JuiceFS 和云盘作为基础的物理存储解决方案，支撑整个机器学习平台的存储需求。

这个论文还是直接用csv文件存的那就不管

2.参数top_p是什么，和tempture对代码有什么影响答：似乎与预训练无关

3.研究一下配置文件，怎么用

4.代码跑起来了得检查一下tokenizer.cls_token，tokenizer.sep_token，tokenizer.unk_token_id这几个到底是什么。答：预训练没用到

5.为什么算损失的时候shift_logits = logits[..., eval_start:-1, :].contiguous()
shift_labels = token_seq[..., eval_start + 1:].contiguous().long()分数和label要这么取得，这样会不会对不上？

6.训练的轮数设置多少（看论文）随便设了三轮

7.数据集里面一行给那么多是什么鬼意思？？也没有看到解释。不管了好像也不影响

8.这个模型输入要固定长度么。答：需要，只要是batch_size批量处理就需要设置，

长度设置为多少？答：设置成所有序列填充到最长

9.可能会报错：chain和species可能得转成[]这种，已转化

流程：

数据预处理思路（怎么改成按照批次处理）：先划分批次，然后再按批次先给每个序列加上掩码后，转化成id，并统一长度，最后输入到模型

输入

输出计算损失（困惑度）

反向传播

关键点

1.掩码长度

随机生成10到20连续的掩码

2.序列前的标签（放在序列最前面，有两种）

chain_token:序列类型，重链/轻链

species_token：序列的种类

论文

Introduction

Problem formulation

模型的输入：Cc+Cs+含掩码的一段序列+[sep]+掩码部分+[ans]。

把掩码部分移到sep后面，让模型去生成相当于就是gpt模型了，计算损失的时候就算最后预测的mask部分

Results

在测试集上测试，发现掩码加在框架区域的时候困惑度低，掩码加在cdr上的时候困惑度较高

代码

GPT2LMHeadModel带有语言建模头的GPT-2模型

完整抗体序列的生成：generate函数

重新设计抗体序列的跨度：infill函数

有什么区别：

generate函数：含有prompt（即开始的几个序列，让模型还原完整的序列）
infill函数：填充任务？这个模型到底在干什么

答：根据论文可知使用的其实是infill函数进行训练，是填充任务和gpt的一种结合变形

参数：num_to_generate是表示的序列的长度还是要生成序列的数量？答：表示生成序列的数量

关注

6
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
IGLM复现笔记

4.代码跑起来了得检查一下tokenizer.cls_token，tokenizer.sep_token，tokenizer.unk_token_id这几个到底是什么。初步理解：掩码掩盖掉已知序列的一部分后，将序列作为输入的前部分继续生成后部分，只是前面有一部分被掩盖掉了。参数：num_to_generate是表示的序列的长度还是要生成序列的数量？模型的输入：Cc+Cs+含掩码的一段序列+[sep]+掩码部分+[ans]。最后理解：初步理解有问题，生成式模型其实是生成的是掩码部分的序列。
复制链接

扫一扫

码农吊兴 CSDN认证博客专家 CSDN认证企业博客

码龄2年

14: 原创

104万+: 周排名

8万+: 总排名

5460: 访问

: 等级

214: 积分

65: 粉丝

82: 获赞

5: 评论

74: 收藏

私信

关注

热门文章

最新评论

汇编上机2
CSDN-Ada助手: 恭喜用户发布了第8篇博客“汇编上机2”，持续创作不易，真是辛苦了！希望您能继续保持创作的热情和耐心，坚持分享更多有趣的内容。或许下一步可以尝试写一些关于汇编语言应用实例或者编程技巧的文章，让读者能够更加深入地了解这个领域。期待您的更多精彩作品，加油！
汇编上机1 学习笔记
CSDN-Ada助手: 恭喜您写了第7篇博客《汇编上机1 学习笔记》，继续保持创作的热情和努力！不断分享学习笔记对于自己的学习也是一个很好的总结和巩固。建议您在下一篇博客中可以尝试加入一些实际案例或者个人见解，让读者更容易理解和产生共鸣。期待您更多精彩的作品！继续加油！
ProtsTrans论文学习笔记
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
最近在写学校预约羽毛球场的脚本，学习笔记，还没完全实现
CSDN-Ada助手: 非常感谢您分享这篇博客，看来您对网页编程和自动化控制有着深入的了解。希望您能够继续努力完善您的学校预约羽毛球场的脚本，相信在不久的将来您一定能够实现您的目标。另外，关于网页编程和自动化控制，您还可以学习一些关于网页结构和DOM操作的知识，这将有助于您更好地理解和操作网页元素。祝您在学习和创作的道路上一帆风顺！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
指针作参数（出学【c++
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。