[深度学习] embedding 在test阶段遇到OOV怎么办

最新推荐文章于 2024-09-03 10:29:06 发布

Kehl

最新推荐文章于 2024-09-03 10:29:06 发布

阅读量9k

点赞数

分类专栏： tensorflow LSTM 文章标签：深度学习

本文链接：https://blog.csdn.net/Oliverkehl/article/details/79897329

版权

tensorflow 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

LSTM

1 篇文章 0 订阅

订阅专栏

即使是char级别的rnn模型，在test阶段也会遇到OOV

这种情况肯定是没法用embedding层的lookup的

如果OOV情况不多，就可以当做UNK处理

有两类思路：

1. UNK有对应的embedding

这种情况怎么来的呢，就是把训练集中所有出现频率小于某个阈值的词都标记为UNK，当然也别太多，这样就得到了UNK的embedding，这里的embedding有一定的语义信息，仁者见仁，可能不好使

2. UNK没有对应的embedding

a. 把UNK都初始化成0的向量

b. 每次都把UNK初始化成一个新的随机向量

都初始化成0向量，会使得UNK都共享相同的语义信息，所以很多人都倾向于对UNK直接随机，因为本身每个UNK都不同，随机更符合我们对UNK基于最大熵的估计，即我不知道你是个啥，所以我就随机出一个，很多地方也证实使用随机向量处理UNK带来的好处:

How to add new embeddings for unknown words in Tensorflow

Initializing Out of Vocabulary (OOV) tokens

如果OOV的情况较多，建议重新train一份embedding

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kehl

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

自然语言处理实战 深度学习之LSTM情感分析

12-08

课程目标学习完本门课程，您将对自然语言处理技术有更深入的了解，掌握基于深度学习情感分析方法;课程基于PyTorch主流框架实现，其中涉及深度学习主流框架LSTM模型以及自然语言处理的词向量；彻底掌握中文情感分析。适用人群想要从事NLP的在校学生、NLP研发工程师自然语言处理从业者、深度学习爱好者课程简介 NLP领域的热门应用，常用在舆情分析，文章分类，智能客服，情感分析等多个场景。情感分析作为自然语言处理的基础技术之一，常被用于电商评论、舆情监控、微博评论情感分析、话题监督等领域，因此深入掌握情感分析技术，是作为自然语言处理从业者必备技能，本课程以案例驱动出发，结合多个项目实战案例，覆盖多种算法，如RNN，LSTM等课程要求：（1）开发环境：python版本：Python3.7； torch 版本：1.3.0＋； torchtext版本：0.3.0+ （2）开发工具：Pycharm；（3）学员基础：需要一定的Python基础，及深度学习基础；（4）学员收货：掌握深度学习情感分类关键技术；（5）学员资料：内含完整程序源码和数据集；（6）课程亮点：专题技术，完整案例，全程实战操作，徒手撸代码。案例5-情感分析功能点

【Python深度学习】Python全栈体系（三十六）

柠檬小帽的博客 - 计算机全栈体系

09-22

740

NLP概述利用TextCNN实现文本分类

4 条评论您还未登录，请先登录后发表或查看评论

讲解Unknown: Failed to get convolution algorithm. This is probably because cuDNN

牛肉胡辣汤

12-22

413

"Unknown: Failed to get convolution algorithm. This is probably because cuDNN"错误通常与cuDNN库的卷积算法获取失败有关。在解决这个错误时，你需要注意cuDNN库的版本兼容性，确保正确安装和设置cuDNN库，以及更新GPU驱动程序。如果问题仍然存在，你可以尝试重新编译深度学习框架。希望本文对你解决该错误提供了一些帮助和指导。

NLP自然语言处理学习过程中知识点总结

最新发布

m0_58620239的博客

09-03

921

TF-IDF 结合了词频和逆文档频率两个指标，能够平衡一个词语在单个文档和整个文档集合中的出现情况，使得常见但无关紧要的词语权重降低，而重要的、具有区分度的词语权重提高。构建词汇表："我","喜欢","学习","是","有趣","的","事情""我", "喜欢", "学习", "是", "有趣", "的", "事情""我","喜欢","学习","是","有趣","的","事情"需要注意的是，IDF值的计算可能会受到一些因素的影响，比如文档集合的大小、文档内容的多样性等。

保姆级教程：手把手教你使用深度学习处理文本

m0_59596937的博客

12-10

1831

大家好，今天给大家分享使用深度学习处理文本，更多技术干货，后面会陆续分享出来，感兴趣可以持续关注。

人工智能 - paddlepaddle飞桨 - 深度学习基础教程 - 机器翻译

YunWisdom

12-01

1329

机器翻译本教程源代码目录在book/machine_translation,初次使用请您参考Book文档使用说明。说明¶ 硬件要求本文可支持在CPU、GPU下运行对docker file cuda/cudnn的支持如果您使用了本文配套的docker镜像，请注意：该镜像对GPU的支持仅限于CUDA 8，cuDNN 5 文档中代码和seq2seq.py不一致的问题请注意：为使...

机器学习与深度学习面试系列十七（Embedding初步）1

08-03

在机器学习和深度学习领域，表示学习是至关重要的一步，它涉及如何将原始输入数据转化为能够捕获数据内在结构和语义信息的有效特征。在本文中，我们将重点关注“表示”以及它在机器学习中的应用，特别是嵌入...

深度学习、mini-imagenet-test.pkl的pkl文件，pytorch、python

03-25

这个是mini-imagenet-cache-test.pkl文件 DeepMind团队首次将miniImageNet数据集用于小样本学习研究，从此miniImageNet成为了元学习和小样本领域的基准数据集。DeepMind的那篇小样本学习的论文就是大名鼎鼎的...

深度学习中word2vec词向量 text8数据集

06-20

基于pytorch学习模型，利用skip-gram模型或者CBOW(Continuous Bag of Words)模型，可以用于训练word2vec词向量，最终得到自己的词向量模型。训练好模型之后，可以得用text8.test.txt数据对自己的模型进行测试，从而...

深度学习在微博信息流排序的应用.pdf

08-21

深度学习作为机器学习的一个分支，在信息流排序、推荐系统等领域已经取得了显著的成效。特别是在微博这样的大型社交媒体平台上，深度学习在处理海量非结构化数据、实时性要求高的场景下展现了强大的优势。下面，我们...

Deeplearning for NLP (简介)

Ding_xiaofei的博客

05-09

864

开篇过目就忘说的可能就是在下了，所以现在所有的学习内容我都会写成博客，不成博客的就是过目就忘啦。这是系列不算挖坑，前面写了几篇Tensorflow的文章，词向量这篇一直处于难产中，拖延症比较严重。争取这两天能够写出来。下面开始我们的正题，这篇博客的内容主要来源于17年牛津大学的NLP课程，这边放出课程oxford-cs-deepnlp的github地址和网易云课堂课程的视频链接，夸一下网易，很...

【吴恩达Tensorflow 2.0实践课】3.2 Embedding

culeworks

01-14

445

3.2.1 Word Embedding 定义单词和关联词聚类，作为多维空间的向量。比如电影评论中，分成两个集群（cluster）。当搜索“无聊（boring）”时，会出现在负面评论的集群中。当搜索“有趣（fun）”时，“funny” 出现在正面评论集群中，“fundamental” 出现在中心，意味着中性评论本节将介绍如何建立分类器，并提供可视化效果 3.2.2 TensorFlow Data Services （TFDS）提供很多数据集使用方法（例如MNIST）：...

NLP自然语言处理中oov的词的解释

Lisen’s blog

11-11

7660

oov 英文全称：out of vocabulary，即超出词表外的词。

算法工程师面试之OOV问题如何解决？

说文科技，做有态度的研究。

06-20

1万+

NLP中的OOV问题以及处理方式

文本生成中的OOV问题

weixin_42887772的博客

07-18

2502

oov问题是文本生成任务中很常见的现象，oov问题是怎么产生的呢？

深度学习（BOT方向）学习笔记（1） Sequence2Sequence 学习

热门推荐

MebiuW的专栏

10-16

1万+

1 前言这个深度学习，其实是来自每周Paper笔记的整理版，即文章的主要内容其实是我对一篇文章的整理，受限于个人水平，可能很多地方会出现理解偏差、或者理解不到位的地方，所以如果发现什么不对的地方欢迎交流。之前我一直不想发这个博文，因为觉得我水平实在有限，不过现在看来还是不论好坏，拖出来见见光好了。所以这个系列的博文的主要内容是我每周Paper阅读的笔记整理，偶尔穿插着一些实验内容。文章的具体信息我会

使用keras调用load_model时报错ValueError: Unknown Layer

u014027421的博客

05-21

2574

原因：模型使用了自定的层处理：在load_model函数中添加custom_objects参数，该参数接受一个字典，键值为自定义的层的函数名（类名）例如：自定义了两层 def MaxPoolingWithArgmax2D(layer): pass def MaxUnpooling2D(layer): pass 加载模型方式： model = load_model(args["model"], custom_objects={'MaxPoolingWithA...

pgn model和一些解决oov的方法

weixin_41710583的博客

05-22

1772

本周主要有面对out of vocabulary时的一些方法，以及对应的pgn模型。 1、当我们面对oov问题出现，往往的解决方法有以下： 01 忽略oov 遇到不认识的词，直接忽略，但是这种方法会严重影响文本摘要的意思。 02 用默认的词代替（unk）但是这种方法会直接造成，摘要内容可读性很差。 03 扩大词表这种方法，从某种程度上可以缓解。但是也会带来计算量大的问题，以及有一些低频词，是不能很好的学习到其中的意思（因为深度学习是基于统计来学习的）。 04 将token分解为char级别..

NLP中如何使用预训练的embeddings

czp_374的博客

02-19

1533

接上一篇在这个kernel中，我想说明在构建深度学习NLP模型时我是如何进行有意义的预处理的（meaningful preprocessing）。我从两条黄金法则（golden rules）开始：当您有预先训练好的嵌入（pre-trained embeddings）时，不要使用标准的预处理步骤，如词干（stemming）或删除词（stopword removal）你们中的一些人在进行基...

Keras深度学习：embedding层详细解析与应用示例

Keras的embedding层是深度学习框架中处理文本数据的重要工具，它主要用于将离散的词汇或整数序列转换成连续的向量表示，这样的表示能够捕捉词汇之间的语义和语法关系。这种转换对于自然语言处理（NLP）任务，如文本...