（2-1）文本预处理算法：分词（Tokenization）

最新推荐文章于 2024-07-10 17:20:46 发布

码农三叔

最新推荐文章于 2024-07-10 17:20:46 发布

阅读量1.2k

点赞数 22

分类专栏：《NLP算法实战》文章标签：算法机器学习 python 人工智能自然语言处理

本文链接：https://blog.csdn.net/asd343442/article/details/136252502

版权

《NLP算法实战》专栏收录该内容

127 篇文章 17 订阅

订阅专栏

文本预处理是自然语言处理（NLP）任务的重要步骤之一，它有助于将原始文本数据转换成适合机器学习算法处理的形式。通过使用文本预处理算法，可以根据特定任务和数据集的要求进行自定义和组合。不同的NLP任务可能需要不同的预处理流程，以确保最佳性能。在本章的内容中，将详细讲解文本预处理算法的知识。

2.1 分词（Tokenization）

分词（Tokenization）是自然语言处理中的重要步骤，它将文本拆分成单词、短语或标记，使其更容易被计算机处理。分词是自然语言处理任务的基础，因为它将连续的文本转化为离散的单元，这些单元可以用于文本分析、信息检索、机器学习等任务。

2.1.1 分词的重要性和基本原理

分词在自然语言处理（NLP）中具有重要性，它是文本处理的基础步骤，对于理解和处理文本数据至关重要。

1. 分词的重要性

文本理解：分词将连续的文本拆分成单词或其他语言单位，有助于计算机理解文本的语法和语义结构。这为后续的文本分析提供了基础。
信息检索：在信息检索和搜索引擎中，分词有助于将用户查询与文档中的关键词匹配。它使搜索引擎能够找到相关的文档。
机器学习和文本分类：在训练机器学习模型时，文本需要转换为数值特征。分词生成了文本的特征表示，可以用于文本分类、情感分析等任务。
语言建模：在自然语言处理任务中，如机器翻译和语音识别，分词是语言模型的基础。分词生成了语言模型的输入序列。
文本摘要和信息提取：在生成文本摘要或从文本中提取关键信息时，分词有助于确定哪些部分的文本最重要。

2. 基本原理

分词的基本原理可以根据语言和任务的不同而有所不同，但通常包括以下方面：

词汇表：首先，需要建立一个词汇表，其中包含常用词汇、短语和标点符号。这个词汇表可以根据不同任务和语言进行定制。
文本扫描：文本被扫描以识别分隔符（如空格、标点符号）和字母字符。这些分隔符用于确定分词的位置。
字典匹配：根据词汇表，将文本与词汇表中的词汇进行匹配。这是一个基于规则的过程，其中可以考虑上下文和语法规则。
最大匹配法：在一些语言中，如中文，可以使用最大匹配法。这意味着从左到右扫描文本，每次匹配最长的词汇。这有助于解决词之间没有空格的问题。
统计方法：基于统计方法的分词使用训练好的语言模型，根据词汇的频率和上下文信息来确定最可能的分词。
混合方法：一些分词工具采用混合方法，结合规则和统计模型，以获得更好的性能。

分词是NLP任务的基础，对于不同语言和任务，可以使用不同的分词方法和工具。正确的分词可以极大地提高文本处理任务的准确性和效率。

2.1.2 基于空格的分词

基于空格的分词是一种最简单的分词方法，它根据空格字符将文本分成单词或短语。这种方法适用于许多拉丁字母文字（如英语、法语、西班牙语等），因为这些语言中通常使用空格来分隔单词。下面是基于空格的分词的基本原理：

文本扫描：文本会被从左到右进行扫描。
空格分隔：在空格字符处将文本分割为单词或短语。空格字符可以是空格、制表符、换行符等。
形成词元：每个分割后的部分被称为一个词元（token）。词元可以是单词、短语或其他语言单位，具体取决于文本的特点和分词需求。
生成词汇表：文本中的所有词元构成了词汇表。词汇表通常用于后续的文本分析任务。
小写处理：根据需要，可以将词元的字符转换为小写，以统一不同大小写形式的单词。

注意：基于空格的分词适用于某些文本处理任务，但对于某些语言和文本类型可能不够精确。例如，在中文、日语和某些非拉丁字母文字中，单词之间通常没有空格，因此无法直接使用这种方法。此外，基于空格的分词方法不考虑标点符号、特殊字符或其他分隔符，可能需要进一步的文本清洗和处理。

在NLP任务中，选择适当的分词方法取决于语言、任务需求和文本的特性。有时候，需要结合多种分词方法，例如在分析多语言文本时，以确保准确的分词和高质量的文本表示。例如下面是一个基于空格的分词的例子，该示例将一句英文歌词分割成单词，并计算每个单词的长度并显示其中最长的单词。

实例2-1：将一句英文歌词分割成单词（源码路径：daima/2/song.py）

实例文件song.py的具体实现代码如下所示。

# 输入一句英文歌词
lyrics = "You say goodbye, I say hello"

# 使用空格分隔单词
words = lyrics.split()

# 初始化最长单词和其长度
longest_word = ""
max_length = 0

# 遍历每个单词
for word in words:
    # 去除标点符号，以防止它们干扰单词的长度计算
    word = word.strip(".,!?;:'")

    # 计算单词长度
    word_length = len(word)

    # 检查是否为最长单词
    if word_length > max_length:
        max_length = word_length
        longest_word = word

# 显示最长单词和其长度
print("最长的单词是:", longest_word)
print("其长度为:", max_length)

在上述代码中，首先将输入的歌词分割成单词，然后去除标点符号，最后计算每个单词的长度并找到最长的单词。这可以用于创建有趣的文本分析工具或游戏，例如猜最长单词的游戏。执行后会输出：

最长的单词是: goodbye
其长度为: 7

2.1.3 基于标点符号的分词

基于标点符号的分词方法通常用于从文本中提取短语、句子或其他语言单位。例如下面是一个基于标点符号的分词的示例，将一段文本按照标点符号进行分割，以获取句子并计算每个句子的平均长度。

实例2-2：将一段文本按照标点符号进行分割（源码路径：daima/2/biao.py）

实例文件biao.py的具体实现代码如下所示。

import re

# 输入一段文本
text = "Natural language processing (NLP) is a subfield of artificial intelligence. It focuses on the interaction between humans and computers using natural language. NLP allows computers to understand, interpret, and generate human language."

# 使用正则表达式分割文本，以句号、感叹号和问号作为分隔符
sentences = re.split(r'[.!?]', text)

# 初始化句子数量和总长度
num_sentences = len(sentences)
total_length = 0

# 遍历每个句子
for sentence in sentences:
    # 去除首尾空格
    sentence = sentence.strip()
    
    # 计算句子长度
    sentence_length = len(sentence)
    
    if sentence_length > 0:  # 确保不处理空句子
        total_length += sentence_length

# 计算平均句子长度
average_length = total_length / num_sentences

# 显示结果
print("文本中的句子数量:", num_sentences)
print("平均句子长度:", average_length)

在上述代码中，首先使用正则表达式将文本分割成句子，以句号、感叹号和问号作为分隔符。然后，它遍历每个句子，计算每个句子的长度并最后计算平均句子长度。这个方法可用于分析文本的句子结构和了解文本的复杂性。执行后会输出：

文本中的句子数量: 4
平均句子长度: 57.25

未完待续

码农三叔

关注

22
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
（2-1）文本预处理算法：分词（Tokenization）

文本预处理是自然语言处理（NLP）任务的重要步骤之一，它有助于将原始文本数据转换成适合机器学习算法处理的形式。通过使用文本预处理算法，可以根据特定任务和数据集的要求进行自定义和组合。不同的NLP任务可能需要不同的预处理流程，以确保最佳性能。在本章的内容中，将详细讲解文本预处理算法的知识。
复制链接

扫一扫