8.2 文本预处理

最新推荐文章于 2024-10-18 00:00:00 发布

Ernest_NEU

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量60

点赞数

分类专栏：动手学深度学习文章标签： python 人工智能神经网络深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_42658491/article/details/134998986

版权

动手学深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。

文本预处理的步骤：
1.将文本作为字符串加载到内存中。

2.将字符串拆分为词元（如单词和字符）。

3.建立一个词表，将拆分的词元映射到数字索引。

4.将文本转换为数字索引序列，方便模型操作。

1.读取数据集

下面的函数将数据集读取到由多条文本行组成的列表中，其中每条文本行都是一个字符串。为简单起见，我们在这里忽略了标点符号和字母大写。

#@save
d2l.DATA_HUB['time_machine'] = (d2l.DATA_URL + 'timemachine.txt',
                                '090b5e7e70c295757f55df93cb0a180b9691891a')

def read_time_machine():  #@save
    """将时间机器数据集加载到文本行的列表中"""
    with open(d2l.download('time_machine'), 'r') as f:
        lines = f.readlines()
    return [re.sub('[^A-Za-z]+', ' ', line).strip().lower() for line in lines]

2.词元化

下面的tokenize函数将文本行列表（lines）作为输入，列表中的每个元素是一个文本序列（如一条文本行）。每个文本序列又被拆分成一个词元列表，词元（token）是文本的基本单位。最后，返回一个由词元列表组成的列表，其中的每个词元都是一个字符串（string）。

提问：如何确定一个词元？

def tokenize(lines, token='word'):  #@save
    """将文本行拆分为单词或字符词元"""
    if token == 'word':
        return [line.split() for line in lines]
    elif token == 'char':
        return [list(line) for line in lines]
    else:
        print('错误：未知词元类型：' + token)

tokens = tokenize(lines)