大模型基础之词表示和语言模型

13 篇文章 16 订阅 ¥9.90 ¥99.00
本文探讨了词表示的重要性,包括同义词、上位词表示的问题与one-hot表示的优缺点。接着介绍使用上下文表示和word embedding,尤其是word2vec模型。进一步讲解了语言模型的概念,如N-gram模型的局限性和神经网络语言模型如何解决这些问题。
摘要由CSDN通过智能技术生成

【为什么要进行词表示】

为了让计算机看懂

为了计算近义词:酒店 ≈ 旅馆

为了表示词之间的关系:中国-北京≈美国-华盛顿;king-man≈queen-woman

【用同义词、上位词表示】

用“美丽”的同义词表示“美丽”:漂亮、大方、靓丽等。

用“NLP”的上位词表示“NLP”:信息学、科学、实体等。上位词:指概念上外延更广的主题词。 例如:”花”是”鲜花”的上位词

用同义词、上位词表示有什么问题:同义词的细微差别无法体现、一些新含义无法捕捉(666原来表示数字,现在也有干得很漂亮的意思)、具有主观性、数据稀疏、依赖人工标注和调试。

【one-hot表示】

词表{美丽,信息学,实干,兴邦}

one-hot词向量表示如下:

美丽=[1,0,0,0]

信息学=[0,1,0,0]

这样表示,利于计算文章的相似度。但是不利于计算两个词之间的相似度。

【使用contextual表示】

使用上下文语境来表示:一个词的含义被经常出现在它周围的词所定义。

例如用目标词上下文其他词出现的次数/重要性来表示它。

好处显然易见。

缺点:词表变大之后,需要更多存储。出现次数少的词,它的向量表示是稀疏的,不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

只要开始永远不晚

谢谢打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值