tf.keras.layers.TextVectorization层介绍及自定义分词器

最新推荐文章于 2025-03-30 18:58:23 发布

会发paper的学渣

最新推荐文章于 2025-03-30 18:58:23 发布

阅读量941

点赞数

分类专栏： tensorflow2.x NLP 推荐文章标签： tensorflow

本文链接：https://blog.csdn.net/sslfk/article/details/128568594

版权

tensorflow2.x 同时被 3 个专栏收录

39 篇文章

订阅专栏

NLP

29 篇文章

订阅专栏

推荐

17 篇文章

订阅专栏

文章介绍了如何在TensorFlow中使用@tf.keras.utils.register_keras_serializable装饰自定义函数，如mysplit，以配合TextVectorization层进行文本处理，包括分词、标准化和自定义分隔符。TextVectorization层不仅支持StringLookup的功能，还提供额外的文本预处理选项。示例展示了模型的保存和加载，并预告了接下来将探讨如何利用indices方法进行embedding查找。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先上代码：

@tf.keras.utils.register_keras_serializable('my_package')
def mysplit(inputs):
    return tf.strings.split(inputs)
input3 = tf.keras.layers.Input(shape=(1,),name="string_test",dtype=tf.string)
my_string_lookup = tf.keras.layers.TextVectorization(vocabulary=["世界","你","good", "d"],split=mysplit)(input3)
model = tf.keras.Model(inputs=[input3], outputs=my_string_lookup)
model.save("mytest.h5")
my_model = tf.keras.models.load_model("mytest.h5")
print(my_model.predict(["世界 你 good ya"]))