深度学习之文本预处理

最新推荐文章于 2023-08-24 15:44:34 发布

li_shucai

最新推荐文章于 2023-08-24 15:44:34 发布

阅读量771

点赞数

分类专栏：深度学习文章标签：自然语言处理深度学习 python 字符串

本文链接：https://blog.csdn.net/li_shucai/article/details/104318483

版权

文章目录

问题的引入
读入文本
分词
建立字典，将每个词映射到一个唯一的索引
- 将词转为索引
- 将索引转为词
用现有的工具分词

问题的引入

我们可以将文本看成是按时间顺序产生的序列，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：

读入文本
分词
建立字典，将每个词映射到一个唯一的索引（index）
将文本从词的序列转换为索引的序列，方便输入模型

读入文本

import re

def read_file(file_path):
    with open(file_path, 'r') as f:
        lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f]
        return lines
        
lines = read_time_machine()
print('# sentences %d' % len(lines))

分词

我们对每个句子进行分词，也就是将一个句子划分成若干个词或字母，转换为一个词的序列。

def tokenize(sentences, token='word'):
    """token为word时将句子按词进行划分，token为char时，按字母进行划分"""
    if token == 'word':
        return [sentence.split(' ') for sentence in sentences]
    elif token == 'char':
        return [list(sentence) for sentence in sentences]
    else:
        print

最低0.47元/天解锁文章

li_shucai

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习之文本预处理

文章目录问题的引入读入文本分词建立字典，将每个词映射到一个唯一的索引将词转为索引将索引转为词用现有的工具分词问题的引入我们可以将文本看成是按时间顺序产生的序列，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型读入文本imp...
复制链接

扫一扫