![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
LLM
文章平均质量分 89
王小燊oom
我溢出了
展开
-
Transformer学习
encoder和decoder基本一样,decoder多了一个masked mutil-head attention。因为decoder计算每次都依赖前一个节点的输出,所以a_n只能看到1~n个节点的输出。NAT的表现通常不如AT。原因:multi-modality。增加一个停止token,一般来会跟begin用一个符号。因为有的语言没有文字,比如将狗叫翻译出来。将任务转化成翻译任务,硬训一发,效果不错。原创 2023-10-05 22:20:10 · 330 阅读 · 0 评论 -
Transformer学习-self-attention
cnn就是self-attention的特例。self-attention更灵活,但是如果训练集小可能更容易过拟。5. self-attention for Graph:用attention来表示nodes之间的关联。原创 2023-10-03 17:00:09 · 398 阅读 · 0 评论 -
wangshusen学习笔记
难度:计算量巨大 – 需要每次从0开始训练CNN,最后用CNN的val 作为奖励来训练controller RNN。如果用上述超参搭建20个卷积层可能的组合有(4 * 3 * 2) ^ 20 = 4 x 10 ^ 27种。2. search space巨大,尝试数量太小,不容易找到特别好的结构;Ray(推荐的开源系统,better than spark);随机设置超参 --train–> CNN model --evaluate–> val acc。重复该过程多次,选择其中val acc 最好的超参配置。原创 2023-09-13 17:18:54 · 265 阅读 · 0 评论 -
大模型微调总结
数据:预训练数据分布和特定任务数据分布不一致 ==>将特定任务、场景的语料的内在关系融入大模型参数中,同时和预训练的通用语料建立联通关系。缩小预训练数据和业务数据的差异,增强对业务数据的理解能力。在某些特定任务上无法达到实际业务需求 or 性能差无法直接使用 ==> 改善特定任务下欠拟合程度。==> 所需资源、训练时间最大,且当语料不够大时容易过拟。==>前缀保留部分序列长度会减少下游任务的序列输入长度。==>难以优化,性能随可训练参数的规模非单调变化。==> 没有额外的推理延时,大致收敛于基座模型。原创 2023-09-05 22:06:15 · 688 阅读 · 0 评论 -
大模型综述论文笔记6-15
code。原创 2023-08-31 23:23:29 · 942 阅读 · 0 评论 -
大模型综述论文笔记1-5
通过神经网络来表征单词序列的概率问题。通过 model size (N), dataset size (D), and the amount of training compute © 三个因素来衡量神经网络模型的表现。3.LLMs的发展不需要明确区分以研究或是工程化为目的,LLMs的训练需要大数据处理和并行训练这些更实际的经验。LLMs 可以适配相同结构的transformer 并可以作为小模型的与训练模型。1.LLMs表现出在更小的PLMs中可能无法观察到的更惊人的能力。原创 2023-08-29 23:53:13 · 1113 阅读 · 0 评论