TensorFlow Text 一文读懂_tensorflow-text-CSDN博客

本文链接：https://blog.csdn.net/sinat_26811377/article/details/100573277

TensorFlow Text 是一个与TensorFlow 2.0兼容的库，专注于文本预处理和序列建模。它提供了Unicode编码、规范化、分词、以及其他文本操作，如Wordshape和N-grams。在训练和预测中，它确保文本处理的一致性，并在TensorFlow Graph中进行操作，简化了预处理流程。Eager Execution和TF.Data API的支持使得它在各种模式下都能灵活使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

官网：https://github.com/tensorflow/text

引言Introduction

TensorFlow Text提供了一组与TensorFlow 2.0共同使用的文本相关类和操作。这个库可以基于文本模型，定期执行预处理，以及核心TensorFlow不提供的序列建模的功能。

在文本预处理中使用这些操作的好处是它们在TensorFlow Graph中完成，因此无需担心训练中的标记化与推测的标记化或管理预处理脚本不同。

安装 Installation

pip install -U tensorflow-text

Eager Execution

TensorFlow Text兼容TensorFlow eager模式和graph模式。

import tensorflow as tf
import tensorflow_text as text
tf.enable_eager_execution()

编码 Unicode

大多数操作所期望的字符串编码方式都是UTF-8。如果使用了不同的编码方式，则可以使用核心tensorflow的转码操作将字符串转码为UTF-8。如果输入的结构无效，也可以使用相同的操作将字符串强制转换为结构有效的UTF-8。

docs = tf.constant([u'Everything not saved will be lost.'.encode('UTF-16-BE'),
                    u'Sad☹'.encode('UTF-16-BE')])
utf8_docs = tf.strings.unicode_transcode(docs, input_encoding='UTF-16-BE',
                                         output_encoding='UTF-8')