TensorFlow Text 一文读懂

TensorFlow Text 是一个与TensorFlow 2.0兼容的库,专注于文本预处理和序列建模。它提供了Unicode编码、规范化、分词、以及其他文本操作,如Wordshape和N-grams。在训练和预测中,它确保文本处理的一致性,并在TensorFlow Graph中进行操作,简化了预处理流程。Eager Execution和TF.Data API的支持使得它在各种模式下都能灵活使用。
摘要由CSDN通过智能技术生成

官网:https://github.com/tensorflow/text

引言Introduction

TensorFlow Text提供了一组与TensorFlow 2.0共同使用的文本相关类和操作。这个库可以基于文本模型,定期执行预处理,以及核心TensorFlow不提供的序列建模的功能。

在文本预处理中使用这些操作的好处是它们在TensorFlow Graph中完成,因此无需担心训练中的标记化与推测的标记化或管理预处理脚本不同。

安装 Installation

pip install -U tensorflow-text

Eager Execution

TensorFlow Text兼容TensorFlow eager模式和graph模式

import tensorflow as tf
import tensorflow_text as text
tf.enable_eager_execution()

编码 Unicode

大多数操作所期望的字符串编码方式都是UTF-8。 如果使用了不同的编码方式,则可以使用核心tensorflow的转码操作将字符串转码为UTF-8。如果输入的结构无效,也可以使用相同的操作将字符串强制转换为结构有效的UTF-8。

docs = tf.constant([u'Everything not saved will be lost.'.encode('UTF-16-BE'),
                    u'Sad☹'.encode('UTF-16-BE')])
utf8_docs = tf.strings.unicode_transcode(docs, input_encoding='UTF-16-BE',
                                         output_encoding='UTF-8')

规范化 Normalization

在处理不同的文本来源时,最重要的是不同来源的相同单词能被识别为相同。 Unicode中不区分大小写匹配的常用技术是大小写折叠(类似于下框)。 (请注意,案例折叠在内部应用NFKC标准化。)
我们还提供Unicode规范化操作,用于将字符串转换为字符的规范表示,其中规范化形式KC是默认值(NFKC&#

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值