Datawhale打卡
文章平均质量分 95
Datawhale打卡大模型微调
人生百态,人生如梦
如果喜欢我的创作内容,可以关注我的个人微信公众号:ai小白成长之旅
展开
-
Datawhale------Tiny-universe学习笔记——Qwen(2)
对于推理的过程,问询不一样长没关系,因为所有的权重都是dim-dim,得到的attention_score是一个seq,seq的,权重跟seq的大小没关系。- 推理过程的attention_mask可有可无,是一个一个吐,循环cat到下一个,每一次都取最后一个,代表着预测的是下一个token.对于第二行,则是前两个有不同的权值,让value的128个维度分别依据这两个的权重,在128个维度上根据前两行,计算得出output的第二个词(第二步或者第二行)的128个维度.... 这种加权,体现出考虑前词关系。转载 2024-09-19 21:46:27 · 71 阅读 · 0 评论 -
NLP从零开始------文本中阶序列处理之语言模型(完整版)
要想得到一个语言模型,最简单的想法是从一个大型语料库中直接统计不同文字序列出现的频率。然而由于文字序列的排列组合空间极大,不可能找到一个包含所有合理的文字序列的语料库,因此这个想法是不可行的。既然序列的概率无法通过经验频率来估计, 那么是否可以通过概率乘法公式将其转换为一系列条件概率的乘积,转而估算这些条件概率呢?其中,表示输入文字序列中的第i个词。那么这个序列“自然语言”的概率可以分解为P(自然语言)=P(自)×P(然|自)×P(语|自然)×P(言|自然语)原创 2024-08-29 08:12:37 · 1289 阅读 · 0 评论 -
Datawhale------Tiny-universe学习笔记——Qwen(1)
对于一个完全没接触过大模型的小白来说,猛一听这个名字首先会一懵:Qwen是啥。这里首先解答一下这个问题。下面是官网给出介绍:Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。其实随着大模型领域的发展,这类产品已经有很多了例如:由百度开发的ERNIE,由清华大学开发的Zhuiyi等等。目前,Qwen已升级至Qwen2版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。原创 2024-09-16 22:18:55 · 922 阅读 · 0 评论 -
AI大模型开发——transformer模型超全完整版(0基础可懂)
为了更深入的了解transformer模型,我们首先从transformer的诞生聊起吧。transformer在2017年由Vaswani等人首次提出,它摒弃了之前流行的循环神经网络和卷积神经网络的架构,引入了自注意力机制( Self-Attention),显著提高了处理序列数据的能力和效率。transformer模型的这种设计使其在处理长距离依赖问题时, 相比于传统的循环神经网络和长短期记忆网络(LSTM)表现得更加出色,至此, 开启了NLP技术的新篇章。原创 2024-08-18 13:00:00 · 1258 阅读 · 0 评论