自然语言处理（NLP）入门（一）

最新推荐文章于 2024-08-16 11:24:16 发布

【变强大】

最新推荐文章于 2024-08-16 11:24:16 发布

阅读量417

点赞数

文章标签：自然语言处理 nlp python 深度学习 tensorflow

本文链接：https://blog.csdn.net/qq_45234219/article/details/114462107

版权

本文介绍了如何使用TensorFlow的Tokenizer对文本进行分词，建立词表，并将句子转换为数字序列。重点讲解了分词器的工作原理，如何处理不同长度的句子以及使用padding技巧。适合初学者理解文本预处理在深度学习中的应用。

摘要由CSDN通过智能技术生成

一.如何用计算机可以处理的方式来表示单词（也叫作“分词”）

import tensorflow as tf 
from tensorflow import keras 
from tensorflow.keras.preprocessing.test import Tokenizer 
sentences=['I love my dog',
           'I.love my cat'] 
tokenizer=Tokenizer(num_words=100)

创建一个Tokenizer Object实例，保留该文字库中出现最频繁的100个单词

tokenizer.fit_on_texts(sentences)

查看sentences中所有文本，并将文本与对应数字进行匹配

word_index= tokenizer.word_index

获取所有单词列表，输出所有词汇与词表（注：所有大写字母都会转为小写字母，后面做初始化embedding时，记得转为大写）

print(word_index)

输出：{‘i’：1，‘m’：3，‘dog’：4，‘cat’：5，‘love’：2} 输出单词和其对应的标识符

注：分词器很聪明，即使dog后有个“!”，像是I love my dog!，分词器也能识别出dog，自动去掉“!”。

二. 为句子创建数字序列，将包含上面单词的句子转换为数字序列

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.test import Tokenizer
sentences=['I love my dog'，
           'I.love my cat'，
           'Do you think my dog is amazing?']
tokenizer=Tokenizer(num_words=100)
tokenizer.fit_on_texts(sentences)
word_index= tokenizer.word_index
sequences=tokenizer.texts_to_sequences(sentences)