正则表达式基本概念_正则表达式概念-CSDN博客

本文链接：https://blog.csdn.net/2301_79288416/article/details/136129742

文章总览：YuanDaiMa2048博客文章总览

正则表达式基本概念

一、基本概念
二、常用正则表达式模式
三、应用示例：CountVectorizer

一、基本概念

正则表达式（Regular Expression，简称 regex 或 regexp）是一种强大的文本模式匹配工具，用于在字符串中搜索、匹配、替换特定的文本模式。本文将介绍正则表达式的基本概念和常用模式，并通过一个日常使用的例子来展示正则表达式的实际应用。

正则表达式由普通字符（如字母、数字）和特殊元字符（如 \, ^, $, .）组成，通过这些元字符的组合可以描述字符串的复杂模式，从而实现对字符串的高效处理。

普通字符：表示它们自身，例如字母、数字、标点符号等。
特殊元字符：具有特殊含义的字符，用于描述字符串的模式，如 ., ^, $, \b, \w 等。
量词：用于指定匹配字符出现的次数，如 *, +, ?, {n}, {m,n} 等。

二、常用正则表达式模式

单词匹配模式：\b\w+\b
- \b：单词的边界。
- \w+：匹配一个或多个字母、数字或下划线字符（即单词字符）。

单词边界解释

单词边界 \b 是一个零宽度断言，用于匹配单词的开始或结束位置。它不匹配任何字符，只匹配位置。在正则表达式中，\b 通常表示单词的边界，即单词的开始或结束位置。

举个例子，考虑字符串 “hello world”。我们想匹配其中的单词 “hello”。使用 \b 来匹配单词边界，正则表达式 \bhello\b 将会匹配 “hello”，但不会匹配 “hello” 前面或后面的字符。

import re

text = "hello helloworld"
pattern = r'\bhello\b'
matches = re.findall(pattern, text)
print(matches)  # Output: ['hello']

在这个例子中，正则表达式 r'\bhello\b' 匹配的是一个完整的单词 “hello”，它需要满足以下条件：

'\b' 表示单词的边界，确保 “hello” 的前面和后面都不是字母、数字或下划线字符。
“hello”：匹配字母序列 “hello”。

在文本 “hello helloworld” 中，第一个 “hello” 的前面和后面都是空格，因此符合边界条件，所以被匹配到了。而第二个 “hello” 的后面直接跟着另一个 “hello”，没有空格，因此不符合边界条件，不会被匹配到。

import re

text = "hello helloworld"
pattern = r'hello'
matches = re.findall(pattern, text)
print(matches)  # Output: ['hello','hello']

在这个例子中，正则表达式 r'hello' 匹配的是字符串中所有的 “hello” 子串，而不考虑边界。因此，在文本 “hello helloworld” 中，第一个 “hello” 被匹配到了，而第二个 “hello” 也被匹配到了，因为它们都是 “hello” 子串。

匹配邮箱地址：[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
- 匹配形式如 user@example.com。
匹配 URL：https?://\w+(\.\w+)+(/[\w-]+)*(\?\S*)?
- 匹配形式如 http://www.example.com/page。

三、应用示例：CountVectorizer

CountVectorizer 是 scikit-learn 中用于将文本数据转换为词袋表示的类之一。它的作用是将文本数据转换为稀疏矩阵，其中每一行表示一个文档，每一列表示一个单词，而矩阵中的元素则表示对应单词在文档中出现的次数。

主要用法

实例化：创建一个 CountVectorizer 对象时，可以通过传入不同的参数来配置如何处理文本数据。
拟合：使用 fit() 方法来拟合模型，该方法会从文本数据中学习词汇表。
转换：使用 transform() 方法将文本数据转换为词袋表示的稀疏矩阵。

from sklearn.feature_extraction.text import CountVectorizer

# 实例化 CountVectorizer 对象，设置参数
vectorizer = CountVectorizer()

# 拟合模型，学习词汇表
vectorizer.fit(text_data)

# 转换文本数据为词袋表示的稀疏矩阵
X = vectorizer.transform(text_data)

常用参数和含义

token_pattern：指定了用于提取 token（单词）的正则表达式模式。
stop_words：指定了要移除的停用词列表。
min_df：词频文档频率的阈值，表示词语必须在至少 min_df 个文档中出现才会被考虑。
max_df：词频文档频率的上限阈值，表示词语不能出现在超过 max_df 比例的文档中。
ngram_range：要提取的 n-gram 的范围。默认为 (1, 1)，表示只提取单个词语。

这些参数可以根据具体任务和数据的特点进行调整，以获得最佳的文本表示效果。

示例：2-gram

在自然语言处理中，2-gram通常指的是由连续的两个单词组成的序列。它可以用来分析文本中连续单词对之间的关系和频率。通过统计文本中所有2-gram出现的频率，我们可以了解哪些单词经常出现在一起，从而推断它们之间可能存在的语义关系。
2-gram 是一种常用的 n-gram 技术，它将文本中连续的两个单词视为一个特征，这种技术能够捕捉到更多的上下文信息，有助于提高模型的性能。

from sklearn.feature_extraction.text import CountVectorizer

# 示例句子
test_sentence = ["This is a test sentence for CountVectorizer."]

# 实例化 CountVectorizer 对象，设置参数为2-gram
vectorizer = CountVectorizer(ngram_range=(2, 2))

# 拟合模型，学习词汇表
vectorizer.fit(test_sentence)

# 转换文本数据为词袋表示的稀疏矩阵
X = vectorizer.transform(test_sentence)

# 输出词袋表示的稀疏矩阵
print("词袋表示的稀疏矩阵：")
print(X.toarray())

# 输出词汇表
print("\n词汇表：")
print(vectorizer.get_feature_names_out())

输出结果：

词袋表示的稀疏矩阵：
[[1 1 1 1 1]]

词汇表：
['for countvectorizer' 'is test' 'sentence for' 'test sentence' 'this is']