大模型学习路线(非常详细)零基础入门到精通,收藏这一篇就够了

314 篇文章 36 订阅
11 篇文章 0 订阅

在大模型时代,经常听到向量这个词,比如向量检索,相似度计算等。那么要怎样理解自然语言处理NLP(Natural Language Processing)中的向量呢?我们今天通过介绍一个简单的例子来理解向量。相信你看完之后,心里就明白了。本文重点介绍共现矩阵,首先看到矩阵两个字先不用慌,本文对文科生和理科生一样友好而平滑。

共现矩阵

共现矩阵是自然语言处理中一种用来表示词语之间关系的工具。在共现矩阵中,每一行代表一个词语,每一列也代表一个词语,矩阵中的每个元素则表示对应行词语和列词语在一段文本或者一组文本中同时出现的次数。简而言之,共现矩阵告诉我们哪些词语在文本中经常一起出现,从而揭示它们之间的关联性。

举例说明,有下面一个句子:

“小华喜欢吃苹果和橙子,他经常在学校买水果吃。”

将这句话按词语切分为:

“小华”、“喜欢”、“吃”、“苹果”、“和”、“橙子”、“他”、“经常”、“在”、“学校”、“买”、“水果”。

我们设置一个规则,即窗口大小为2,然后,我们对于每个词,看它周围2个词内出现了哪些其他词语,如果出现了就在共现矩阵中对应位置加1。

以"小华"为例,它周围2个词是"喜欢"、“吃”,所以我们在共现矩阵中"小华"行,“喜欢”、"吃"列的位置上加1。

依此类推,我们可以构建出如下的共现矩阵(为了简洁起见,这里只展示部分共现关系):

词向量与相似度计算

有了这个共现矩阵之后,我们就可以用向量来表示词了,比如:

"苹果"这个词的向量可以表示为:

[0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0]

没错,就是用“苹果”这一行来表示。

"橙子"的向量则表示为:

[0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0]

我们来看看,“苹果”和“橙子”之间有多大关联。这里可以用余弦相似度来衡量,即:

计算步骤如下:

已知:

"苹果"的向量 [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0]

“橙子"的向量 [0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0]

1. 计算”苹果”和”橙子”的点积,即两个向量的对应位相乘,然后相加:

2. 计算"苹果"的模:

3. 计算”橙子"的模:

4. 计算余弦相似度:

因此,"苹果"和"橙子"之间的余弦相似度为 1/3。

苹果和橙子的向量相似度为1/3。这意味着在给定的上下文中,苹果和橙子有1/3的共现情况,这种相似度反映了苹果和橙子在上下文中的共现模式。

再来看看“苹果”和“喜欢”的相似度:

共现向量(苹果)= [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0]

共现向量(喜欢)= [1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0]

余弦相似度 ≈ 0.577

而“苹果”和“学校”的相似度则为0,这表明它们在共现矩阵中共现的情况很少或根本没有。换句话说,这两个词在文本中很少同时出现在相同的上下文中。因此,它们之间的共现模式非常不同,可以认为它们在语义上没有明显的联系或相关性。

共现矩阵向量表示的局限性

我们来计算一下“他”与“经常”的相似度,结果是1/3,而“小华”与“经常”的相似度为0。而从语义来看,这里的“他”代指“小华”,但从上面的共现矩阵并没有发现这种联系,说明了共现矩阵在捕捉词语语义关系方面的不足。共现矩阵的不足,主要表现在以下几点:

**稀疏性:**共现矩阵会变得非常稀疏,特别是在处理大型语料库时,因为大多数词语只与少数词语共现。这导致大量的维度没有实际的信息,而是被填充为零。

**词序信息丢失:**共现矩阵仅考虑词语共现的频率,忽略了词语在句子或文本中的顺序信息,这在很多情况下是非常重要的,尤其是在理解上下文中的语义关系时。

**无法处理复杂关系:**共现矩阵无法捕捉到更复杂的语义关系,例如词语的多义性、上下位关系等,因为它只关注词语之间的共现频率。

相比之下,机器学习中的词向量具有以下优点:

(1)语义信息丰富,通过大型语料库学习,能更好地捕捉语义信息;

(2)低维稠密表示,相对共现矩阵,更具信息量且易于处理;

(3)考虑词序信息,如RNN和Transformer等模型能够更准确地捕捉语义关系,提高模型性能。

关于机器学习词向量,后面的文章会陆续介绍。

本文介绍了自然语言处理中的向量表示,着重介绍了共现矩阵的概念和应用。共现矩阵是一种用于表示词语之间关系的工具,通过统计词语在文本中的共现情况,揭示词语之间的关联性。文章以一个简单的例子演示了如何构建共现矩阵,并计算了词语之间的相似度。虽然共现矩阵能捕捉词语的共现关系,但在理解语义关系方面存在不足。相比之下,机器学习中的词向量能更准确地捕捉语义信息,具有更丰富的语义表示,对NLP任务更为有效。

AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

四、AI大模型商业化落地方案

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值