大数据理论基础-模型架构学习笔记

何草不玄丶

已于 2023-12-22 02:05:06 修改

阅读量43

点赞数

文章标签：笔记人工智能大数据语言模型

于 2023-12-18 00:03:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47637467/article/details/135052702

版权

大模型的模型概括

当前大规模语言模型的能力在于给定一个基于自身需求的prompt就可以生成符合需求的结果。形式可以表达为：

prompt⇝completion
从数学角都即学习一个分布：

trainingData => p(x_t,...,x_L)

分词

分词是一个非常古老的课题，其目的是将任意字符串转换为标记序列

基于空格的分词

对中文德语等很难生效，因此这里讨论了一些对于好的分词的标准：

首先我们不希望有太多的标记（极端情况：字符或字节），否则序列会变得难以建模。
其次我们也不希望标记过少，否则单词之间就无法共享参数（例如，mother-in-law和father-in-law应该完全不同吗？），这对于形态丰富的语言尤其是个问题（例如，阿拉伯语、土耳其语等）。
每个标记应该是一个在语言或统计上有意义的单位。

Byte pair encoding

著名的BPE编码算法，其需要通过模型训练数据进行学习以获得一些频率特征。

训练原理

Unicode的问题

由于Unicode编码字符非常多，这会使得训练数据稀疏性过大。
因此可以对字节而不是Unicode字符进行BPE算法，以中文为例：

今天⇒[x62, x11, 4e, ca] BPE算法在这里的作用是为了进一步减少数据的稀疏性。通过对字节级别进行分词，可以在多语言环境中更好地处理Unicode字符的多样性，并减少数据中出现的低频词汇，提高模型的泛化能力。通过使用字节编码，可以将不同语言中的词汇统一表示为字节序列，从而更好地处理多语言数据。

Unigram model

unigram模型的目标是定义一个目标函数来捕捉一个好的分词的特征，其具有更好的适应性。

给定一个序列 $x_{i:L}$ ，一个分词器 $T$ 是 $p(x_{1:L})=\prod_{(i,j)\in{T}}(p(x_{i:j}))$ 的一个集合。

算法实例
通过将各个分词的概率相乘，可以得到整个训练数据的似然值，该似然值越高，则分词结果更为合理。该算法具体由以下流程表示：
算法流程
这一过程目的在于剔除对似然值贡献较小的词汇，减少词汇的稀疏性，通过迭代优化和剪枝，这词汇表会得到提升，模型性能也会得到提升。
（不过不是很懂模型是怎么通过这一优化过程训练的…，有待重新学习）

模型架构

上下文向量表征（Contextual Embedding）要比整体的概率分布表示更高效，其主要标记序列由其相应的上下文向量进行表征：
在这里插入图片描述
即对某个token的表征要通过其一定范围内的上下文token进行确定，通过定义嵌入函数，其能对标记序列生成上下文向量表征。

（未完待续

何草不玄丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据理论基础-模型架构学习笔记

大模型理论基础-模型架构学习笔记
复制链接

扫一扫

何草不玄丶 CSDN认证博客专家 CSDN认证企业博客

码龄4年

32: 原创

108万+: 周排名

17万+: 总排名

1万+: 访问

: 等级

336: 积分

1: 粉丝

4: 获赞

3: 评论

9: 收藏

私信

关注

热门文章

最新评论

学术论文插图绘制学习第二章
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“学术论文插图绘制学习第二章”听起来非常有趣和富有挑战性。您的持续创作真是令人敬佩。在这个有关学术论文插图绘制的系列中，您已经分享了很多宝贵的知识和经验。接下来，我想提供一些建议，希望对您的下一步创作有所帮助。也许您可以考虑探讨一些实用技巧，例如如何选择最合适的图表类型来传达不同的信息，或者如何使用图表来提高读者对您的论文的理解度。此外，如果您能够分享一些常见的图表绘制错误以及如何避免它们的方法，那将非常有益。总之，我非常期待您未来的创作，并且对于您对学术论文插图绘制的研究感到钦佩。希望我的建议能够为您的下一步创作提供一些启发。祝您继续取得成功！
学术论文插图绘制学习第一章
CSDN-Ada助手: 恭喜您撰写第19篇博客！标题“学术论文插图绘制学习第一章”听起来非常有趣和有益。我很高兴看到您一直在持续创作，并且选择了如此重要的主题来分享。您的努力和热情对于向读者传达学术论文插图绘制的技巧和知识无疑将会产生积极的影响。在下一步的创作中，我建议您可以考虑深入探讨如何结合实际案例来说明学术论文插图绘制的重要性和技巧。这样的实例可以帮助读者更好地理解并应用您所分享的知识。同时，您也可以尝试与其他领域的专家或学者合作，以便获得更多的观点和见解。总的来说，您的博客已经走在了正确的道路上。继续努力，保持谦虚的态度，我相信您将继续为读者带来更多有价值的内容。期待您未来的创作！
推荐系统实战：新闻推荐系统基本流程
何草不玄丶: 有的，不过也是从https://github.com/datawhalechina/fun-rec这里进行本地化修改的，可以先参考一下
推荐系统实战：新闻推荐系统基本流程
南宫贇: 您好有完整的代码吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。