文本处理方式方法

概述

从今天开始,我们将开启一段自然语言处理的流程,自然语言可以让来处理、理解以及运用人类的语言,实现机器语言和人类语言之间的沟通桥梁。

在这里插入图片描述

文本处理

我们正在进行文本处理的时候,经常会用到文本长度不一致的情况,遇到奇奇怪怪的符号问题,这时候,我们就需要特殊字符来帮助我们解决这些问题。

在这里插入图片描述

< P A D > <PAD> <PAD>可以帮助我们填充句子长度不同的部分,在我们的NLP训练过程中,我们会将输入按Batch输入,但是这些Batch必须拥有相同的长度

< U N K > <UNK> <UNK>: ,可以帮助我们替换词汇表中不存在的字符,例如一些低频词或者低频字。或者特殊符号
< G O > <GO> <GO>:会放在句子的开头,用于告诉模型这是句子输入的开始,即第一个时间步长的输入。
< E O S > <EOS> <EOS>
会放在句子的结尾,用于告诉模型这是句子的输入结束
在这里插入图片描述
在Bert等预训练模型的词汇表中,有 [ P A D ] , [ C L S ] , [ S E P ] , [ M A S K ] , [ U N K ] [PAD],[CLS],[SEP],[MASK],[UNK] [PAD],[CLS],[SEP],[MASK],[UNK]这样几种token,它们代表的具体含义如下:
【PAD]: 要将句子处理为特定长度,就要将句子前或后补充[PAD]
[CLS]:这个标志放在句子的首位,表示句子的开始。
【SEP】:这个标志用于分开两个输入句子,例如输入句子A和B,后面增加[SEP]标志。
【MASK]:这个标志用于遮盖句子中的一些单词。
【UNK}:词典中没有词被标记为[UNK]

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

big_matster

您的鼓励,是给予我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值