NLP中的标识化

最新推荐文章于 2023-08-17 10:43:49 发布

磐创 AI

最新推荐文章于 2023-08-17 10:43:49 发布

阅读量1.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fendouaini/article/details/106996200

版权

作者|ARAVIND PAI 编译|VK 来源|Analytics Vidhya

概述

标识化是处理文本数据的一个关键
我们将讨论标识化的各种细微差别，包括如何处理词汇表外单词（OOV）

介绍

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。

为了让我们的计算机理解任何文本，我们需要用机器能够理解的方式把这个词分解。这就是自然语言处理（NLP）中标识化的概念。

简单地说，标识化(Tokenization)对于处理文本数据十分重要。

下面是关于标识化的有趣的事情，它不仅仅是分解文本。标识化在处理文本数据中起着重要的作用。因此，在本文中，我们将探讨自然语言处理中的标识化，以及如何在Python中实现它。

目录

标识化
标识化背后的真正原因
我们应该使用哪种（单词、字符或子单词）？
在Python中实现Byte Pair编码

标识化

标识化(Tokenization)是自然语言处理（NLP）中的一项常见任务。这是传统NLP方法（如Count Vectorizer）和高级的基于深度学习的体系结构（如Transformers）的基本步骤。

单词是自然语言的组成部分。

标识化是一种将文本分割成称为标识的较小单元的方法。在这里，标识可以是单词、字符或子单词。因此，标识化可以大致分为三种类型：单词、字符和子单词（n-gram字符）标识化。

例如，想想这句话：“Never give up”。

最常见的词的形成方式是基于空间。假设空格作为分隔符，句子的标识化会产生3个词，Never-give-up。由于每个标识都是一个单词，因此它成为单词标识化的一个示例。

类似地，标识(token)可以是字符或子单词。例如，让我们考虑smarter”：

字符标识：s-m-a-r-t-e-r
子单词(subword)标识：smart-er

但这有必要吗？我们真的需要标识化来完成这一切吗？

标识化背后的真正原因

由于词语是自然语言的构建块，所以处理原始文本的最常见方式发生在单词级别。

例如，基于Transformer的模型（NLP中的最新（SOTA）深度学习架构）在单词级别处理原始文本。类似地，对于NLP最流行的深度学习架构，如RNN、GRU和LSTM，也在单词级别处理原始文本。

如图所示，RNN在特定的时间步接收和处理每个单词。

因此，标识化是文本数据建模的首要步骤。对语料库执行标识化以获取单词。然后使用以下单词准备词汇表。词汇是指语料库中出现过的单词。请记住，词汇表可以通过考虑语料库中每个唯一的单词或考虑前K个频繁出现的单词来构建。

创建词汇表是标识化的最终目标。

提高NLP模型性能的一个最简单的技巧是使用top K的单词创建一个词汇表。

现在，让我们了解一下词汇在传统的和高级的基于深度学习的NLP方法中的用法。

传统的NLP方法如单词频率计数和TF-IDF使用词汇作为特征。词汇表中的每个单词都被视为一个独特的特征：
在基于深度学习的高级NLP体系结构中，词汇表用于创建输入语

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLP中的标识化

作者|ARAVIND PAI编译|VK来源|Analytics Vidhya概述标识化是处理文本数据的一个关键我们将讨论标识化的各种细微差别，包括如何处理词汇表外单词（OOV）介绍从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。为了让我们的计算机理解任何文本，我们需要用机器能够理解的方式把这个词分解。这就是自然语言处理（NLP）中标识化的概念。简单地说，标识化(Tokenizatio
复制链接

扫一扫

磐创 AI

CSDN认证博客专家 CSDN认证企业博客

码龄14年

711: 原创

1万+: 周排名

142万+: 总排名

245万+: 访问

: 等级

2万+: 积分

8098: 粉丝

2516: 获赞

627: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

用PyTorch实现图像聚类
普通网友: 能不能教一下怎么新训练？
最便捷的神经网络可视化工具之一--Flashtorch
椒盐玛奇朵: flashtorch.utils里面没有visualize函数，请问该如如何解决？
新手必备 | 史上最全的PyTorch学习资源汇总
q-类星体: 我试用了autodl，inscode和炼丹侠的服务器产品，其中炼丹侠的服务器算是相当不错的，炼丹侠的算力市场上架了大批量的A100，和其他几个产品相比这个平台的服务器质量是比较高的，而且价格也不贵，和autodl价格相仿，当前处于内测阶段，免费试用，之后还能薅羊毛，还没服务器的铁子们赶快入手了
PyTorch:Bi-LSTM的文本生成
quzw: https://cloud.tencent.com/developer/article/1759341?from=15425 相同内容，无需付费
使用NLP检测和对抗AI生成的假新闻
羰陽: 辣鸡网站，转载文章还要会员，我直接去看原文了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。