大模型基础之词表示和语言模型

最新推荐文章于 2024-10-11 13:07:10 发布

只要开始永远不晚

最新推荐文章于 2024-10-11 13:07:10 发布

阅读量1.5k

点赞数

分类专栏： LLM 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haohaizijhz/article/details/131088500

版权

LLM 专栏收录该内容

13 篇文章 16 订阅 ¥9.90 ¥99.00

订阅专栏

本文探讨了词表示的重要性，包括同义词、上位词表示的问题与one-hot表示的优缺点。接着介绍使用上下文表示和word embedding，尤其是word2vec模型。进一步讲解了语言模型的概念，如N-gram模型的局限性和神经网络语言模型如何解决这些问题。

摘要由CSDN通过智能技术生成

【为什么要进行词表示】

为了让计算机看懂

为了计算近义词：酒店 ≈ 旅馆

为了表示词之间的关系：中国-北京≈美国-华盛顿；king-man≈queen-woman

【用同义词、上位词表示】

用“美丽”的同义词表示“美丽”：漂亮、大方、靓丽等。

用“NLP”的上位词表示“NLP”：信息学、科学、实体等。上位词：指概念上外延更广的主题词。例如：”花”是”鲜花”的上位词

用同义词、上位词表示有什么问题：同义词的细微差别无法体现、一些新含义无法捕捉（666原来表示数字，现在也有干得很漂亮的意思）、具有主观性、数据稀疏、依赖人工标注和调试。

【one-hot表示】

词表{美丽，信息学，实干，兴邦}

one-hot词向量表示如下：

美丽=[1,0,0,0]

信息学=[0,1,0,0]

这样表示，利于计算文章的相似度。但是不利于计算两个词之间的相似度。

【使用contextual表示】

使用上下文语境来表示：一个词的含义被经常出现在它周围的词所定义。

例如用目标词上下文其他词出现的次数/重要性来表示它。

好处显然易见。

缺点：词表变大之后，需要更多存储。出现次数少的词，它的向量表示是稀疏的，不

了解本专栏

只要开始永远不晚

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

只要开始永远不晚 谢谢打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。