本篇文章将从零讲解什么是正则表达式,以及正则表达式的规则、在python中的应用,用通俗易懂的描述方式进行零基础级别的讲解,尽量做到全网最全讲解,力求最高质量文章,欢迎关注!点击目录可直接进行相关位置跳转。
目录:
例1:字符串"ab*c"表示b可以出现0次或多次,所以下列情况均可以匹配到
例2:字符串"ab+c"表示b可以出现1次或多次,所以下列情况均可以匹配到
什么是正则?
正则是一种用于描述文本模式的工具。
正则表达式使用一些特定的符号和字符来描述文本中的模式和结构,例如字符串的格式、字符集合、数量和位置等。
使用正则表达式可以有效地进行字符串匹配、替换和提取等操作。
有了正则表达式,我们就可以非常快速的提取出想要的内容而不需要特别复杂的代码来完成
例如:正则表达式可以实现用很少量的字符即可提取出下列文字中所有的数字部分↓
截至收盘,上证指数涨0.78%,报3446.73点,深证成指涨0.91%,报13642.95点,创业板指涨1.06%,报2672.12点......
为什么需要正则?
正则表达式常用于文本处理、搜索引擎、数据清洗和数据挖掘等领域。
在编程语言中,例如Python、Java、JavaScript等,都提供了正则表达式的支持。通过编写正则表达式,我们可以轻松地匹配和操作字符串中的特定模式,从而快速实现复杂的字符串处理任务。
总之,正则表达式是一种非常有用的工具,可以帮助我们快速有效地处理和操作字符串数据,提高数据处理的效率和准确性。
正则表达式样例:
pattern = r"\d+(\.\d+)?"
在python中运行正则表达式方法:
import re
text = "截至收盘,上证指数涨0.78%,报3446.73点,深证成指涨0.91%,报13642.95点,创业板指涨1.06%,报2672.12点......"
#使用正则表达式提取数字
pattern = r"\d+(\.\d+)?"
result = re.findall(pattern,text)
#输出提取数据
print(result)
写好一个核心的正则表达式,主要先从理解它的基本组成部分开始,主要包括理解且会用以下内容:
- 元字符
- 字符集
- 量词
- 转义
- 特殊序列
- 分组
元字符
元字符:元字符是正则表达式中用来匹配字符的特殊字符
以下三种为常用元字符:
- "."表示匹配任意字符
- "^"表示匹配字符串的开头
- "$"表示匹配字符串的结尾
1、将正则表达式写成"."来运行程序,过程如下
import re
text = "截至收盘,上证指数涨0.78%,报3446.73点,深证成指涨0.91%,报13642.95点,创业板指涨1.06%,报2672.12点......"
# 将正则表达式换成一个小数点
pattern = r"."
result = re.findall(pattern, text)
# 输出提取数据
print(result)
在pycharm编辑器中的运行结果:
['截', '至', '收', '盘', ',', '上', '证', '指', '数', '涨', '0', '.', '7', '8', '%', ',', '报', '3', '4', '4', '6', '.', '7', '3', '点', ',', '深', '证', '成', '指', '涨', '0', '.', '9', '1', '%', ',', '报', '1', '3', '6', '4', '2', '.', '9', '5', '点', ',', '创', '业', '板', '指', '涨', '1', '.', '0', '6', '%', ',', '报', '2', '6', '7', '2', '.', '1', '2', '点', '.', '.', '.', '.', '.', '.']
以上方法则实现了把没一个字符都提取出来了并且放在了一个列表中。
2、将正则表达式写成"^."来运行程序,过程如下
import re
text = "截至收盘,上证指数涨0.78%,报3446.73点,深证成指涨0.91%,报13642.95点,创业板指涨1.06%,报2672.12点......"
# 将正则表达式换成"^."
pattern = r"^.