NLP 之词的表示与语言模型

最新推荐文章于 2024-08-06 20:43:29 发布

find_element_by_id

最新推荐文章于 2024-08-06 20:43:29 发布

阅读量155

点赞数 1

文章标签：自然语言处理语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33382118/article/details/140947952

版权

表示的基本原理：

机器无法理解文字，却能进行复杂的数学运算——神经网络只要够深、够复杂，就能拟合足够复杂的数学模式。把文字嵌入（embed）到一个向量空间中去。

词表示（Word Representation）分为4代

1.独热（One hot）编码

基本原理：

假设中文字典有n个词元，那么第i（i=1,2,3,...,n）个词元的编码为一个长度为n的向量，它的第i位为1，其他为0。独热编码实现了对文本的向量化嵌入。

问题：

第一，向量的维度太长了，文本的表示过于稀疏；

第二，词向量与词向量之间完全正交，不具有相关性。

2.词频-逆文档词频（Term Frequency-Inverse Term Frequency, TF-IDF）

根据Zipf's Law，在给定的自然语言语料库中，任何一个词的频率与它在频率表中的排名成反比。

3.语境无关（Context-free/Non-contextual）的词表示：Word2vec

它对每一个词生成一个相同的词表示，不考虑同一个词在不同语境下含义的差别。

连续词袋法：

用一个浅层神经网络，依次遮住句子中的每一个词，然后用它的上下文来预测它

跳元法：

我们用一个k元词组来预测它的上下文

自监督预训练:

通过“破坏”句子的一部分，让模型预测它，从而实现对词的更精确的表示.

4.语境相关（Context-dependent/Contextual）的词表示：BERT

语言的多义性是人类自然语言的重要特点。

BERT考虑了三层嵌入：词嵌入、位置嵌入（词在句子中的位置）和句子嵌入，并把它们加起来作为最后的嵌入表示。

BERT使用WordPiece分词器（tokenizer），借鉴了自监督训练的思想，在两个任务上进行预训练：下句预测（Next Sentence Prediction）和掩码语言建模（Masked Language Modeling）。

下句预测是一个二分类任务：给定一个句子，判定另一个句子是否是它的下一句；

掩码语言建模任务随机掩盖其中15%的单词，并训练模型来预测被掩盖的单词，为了预测被掩盖的单词，模型从两个方向阅读该句并进行预测。

find_element_by_id

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NLP 之词的表示与语言模型

表示的基本原理：机器无法理解文字，却能进行复杂的数学运算——神经网络只要够深、够复杂，就能拟合足够复杂的数学模式。把文字嵌入（embed）到一个向量空间中去。词表示（Word Representation）分为4代基本原理：假设中文字典有n个词元，那么第i（i=1,2,3,...,n）个词元的编码为一个长度为n的向量，它的第i位为1，其他为0。独热编码实现了对文本的向量化嵌入。问题：第一，向量的维度太长了，文本的表示过于稀疏；第二，词向量与词向量之间完全正交，不具有相关性。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。