Python3 爬虫学习笔记（三）正则表达式

最新推荐文章于 2024-08-15 14:51:20 发布

咸甜适中

最新推荐文章于 2024-08-15 14:51:20 发布

阅读量139

点赞数

分类专栏： Python 文章标签： python 正则

本文链接：https://blog.csdn.net/qq_30712797/article/details/84585306

版权

Python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

单字符

.	任意一个字符（除\n）
[]	列举的一个字符
\d	数字（0-9）
\D	非数字
\s	空白、空格、Tab
\S	非空
\w	单词字符（a-z,A-Z,0-9,_）
\W	非单词字符

多字符

*	0-∞
+	1-∞
?	0或1
{m}	m
{m,}	m-∞
{m,n}	m-n

边界

^	开头
$	结尾
\b	单词边界
\B	非单词边界

分组

\|	左右任意一个
(ab)	一个分组
\num	引用 num 分组匹配到的字符串
(?P<name>)	分组起别名
(?P=name)	引用 name 分组匹配到的字符串

import re

re.match(正则,字符串)      #从字符串开始位置匹配
re.searth(正则,字符串)     #查找第一个
re.findall(正则,字符串)    #全部
re.sub(正则,替换字符串,原字符串)    #替换
re.sub(正则,函数名,原字符串)        #函数返回值替换
re.split(正则,字符串)               #正则分割字符串，返回列表

+？关闭贪婪模式

例：分隔单词

s = hello world ha ha
re.split(r" +",s)
re.findall(r"\b[a-zA-Z]+\b",s)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

咸甜适中

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫学习笔记.正则表达式

qq_51102350的博客

04-26

396

正则表达式一，正则表达式介绍Ⅰ，一般字符Ⅱ，预定义字符集Ⅲ，数量词Ⅳ，边界匹配二，re库的介绍二级目录三级目录一，正则表达式介绍概述：正则表达式是有自己特定语法结构的处理字符串的工具。 Ⅰ，一般字符字符含义 . 匹配任意单个字符（不包括换行符\n） \ 转义字符 […] （对应字符集中任意字符） .：匹配任意单个字符，如a.c可以匹配的结果为abc，avc等。 \：转义字符，如\n […]：在括号中任选一个，如a[bcd]，匹配的结果为ab，ac，ad。 Ⅱ，预定义字符集

Python 爬虫学习笔记之正则表达式

12-25

想要学习 Python 爬虫，首先需要了解一下正则表达式的使用，下面我们就来看看如何使用。 . 的使用这个时候的点就相当于一个占位符，可以匹配任意一个字符，什么意思呢？看个例子就知道 import re content = ...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫系列——正则表达式

w04171018的博客

06-10

2512

各位猿媛大家好，我是萌新小农，目前大二在读，正在努力学习Py，希望大家能多多关照和支持。也可以私下交流学习。同时也期望我的文章能够为大家带来帮助和解决大家的一些困惑。努力学习，拿下Py~正则表达式是由一些具有特殊含义的字符组成的字符串，用于描述要匹配的文本模式。正则表达式可以在文本中查找、替换、提取和验证特定的模式。python中，re库拥有全部正则表达式的功能。

python正则表达式编译_Python正则表达式(完整学习笔记)

weixin_30146085的博客

02-04

494

Python的正则表达式，主要使用re模块re模块为Python自带的模块，不需要单独安装，引入re模块：import re。1. re.match(pattern,string,flags=0)功能：尝试从字符串起始位置匹配一个字符串，如果不是起始位置或不匹配，则返回值为None。pattern:匹配的正则表达式string：要匹配的字符串flags：标志位，用于控制正则表达式的方式。re.I...

python爬虫-正则表达式

2401_83817171的博客

04-21

1062

的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

Python学习笔记-正则表达式与爬虫练习

最新发布

weixin_44067856的博客

08-15

829

正则表达式就是从一个字符串中提取出需要的字符串，或者说是按照某种规则去匹配字符串在python中使用正则表达式，需要先引入一个正则表达式模块re，经常用到的函数是findall()pattern: 用哪种规则提取string: 从哪个字符串进行提取flags: 可选，控制匹配方式返回的是一个列表。

python爬虫自学笔记分析_Python 爬虫学习笔记之正则表达式

weixin_39559333的博客

12-01

115

Python 爬虫学习笔记之正则表达式正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。正则表达式的使用想要学习 Python 爬虫，首先需要了解一下正则表达式的使用，下面我们就来看看如何使用。. 的使用这个时候的点就相当于一个占位符，可以匹配任意一个字符，什么意...

Python3爬虫学习笔记——正则表达式练习之爬取起点网完本玄幻小说信息

qq_39351517的博客

08-13

1299

说来惭愧，在看完崔庆才写的Python3网络爬虫开发实战的requests篇和正则表达式篇后，就想练练手，于是想到了最近书荒，就像看看小说，于是就。。。但是呢，在chrome下参考网站源码还写正则表达式后，并不能获取到想要的数据。查看输出html后，发现获取到的html源码并非与chrome上Elements提供的相同。查询相关资料后了解到Elements显示的源码时经过渲染以后的源码。所以需...

Python爬虫学习笔记(正则表达式基础：Re库)

qq_33360009的博客

01-21

585

正则表达式：是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。 re 模块使 Python 语言拥有全部的正则表达式功能，安装参考requests。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 1.常用操作符操作符说明实例 ...

python爬虫学习笔记4-正则表达式

藏狐的博客

12-12

196

正则表达式1.简介1.1概念1.2 应用场景2.正则表达式对python的支持2.1 re简单应用2.2 re库的主要方法3.正则表达式语法3.1 普通字符3.2 元字符3.2.1 限定符3.2.2 定位符3.2.3 特殊字符3.2.4 预定义匹配字符集3.3. 贪婪模式和非贪婪模式 1.简介 1.1概念 正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。 1.2 应用场景表单验证(e

python爬取笔记_Python 爬虫学习笔记之正则表达式

weixin_39609457的博客

11-28

正则表达式的使用想要学习 Python 爬虫，首先需要了解一下正则表达式的使用，下面我们就来看看如何使用。. 的使用这个时候的点就相当于一个占位符，可以匹配任意一个字符，什么意思呢？看个例子就知道import recontent = "helloworld"b = re.findall('w.',content)print b`注意了，我们首先导入了 re，这个时候大家猜一下输出结果是什么？因...

学习笔记：Python爬虫正则表达式.doc

07-20

### 正则表达式在Python爬虫中的应用 #### 一、引言在Python编程中，正则表达式（Regular Expression，简称regex或regexp）是一种强大的文本处理工具，广泛应用于字符串搜索、替换等场景。对于从事网络爬虫开发的...

《Python网络爬虫与信息提取》第三周网络爬虫之实战学习笔记（一）Re（正则表达式）库入门

01-21

（3）正则表达式的举例（4）正则表达式的特点（5）正则表达式在文本处理中十分常用（6）正则表达式的使用 2、正则表达式的语法（1）正则表达式的语法的定义（2）正则表达式的常用操作符（3）正则表达式语法...

Python3 爬虫学习笔记（二）浏览器内核、uropen、request等

咸甜适中

11-28

1968

浏览器内核 : IE : Trident Opera : Presto Mozilla : Firefox ( Fecko ) Linux : KHTML ( Like Gecko ) Apple : Webkit ( Like KHTML ) Google : Chrome ( Like ...

Python3 爬虫学习笔记（一）抓包软件设置

咸甜适中

11-28

820

Robots 协议：指明通用爬虫可以爬取网页的权限。 Robots.txt：只是一个建议。 Fiddlet 设置：点击菜单栏“Tools”----选择“Options…”----点击“HTTPS” "6"中选择“Trust Root Certificate”----yes 点击“Connections” “ok” ...

Python3 多任务之---异步

咸甜适中

11-30

740

异步 from multiprocessing import Pool import time import os def test(): print('---进程池中的进程---pid=%d,ppid=%d--'%(os.getpid(),os.getppid())) for i in range(3): print('----%d----'%i) ...

Python3 爬虫学习笔记（四）url转码

咸甜适中

11-28

685

import urllib wb = {"wd":"转码"} url = urllib.parse.urlencode(wb) #转码 urllib.parse.unquote(url) #反转码

Python3 多任务之---进程

咸甜适中

11-30

429

进程（fork）（类Unix） import os import time ret = os.fork() #创建子进程 if ret==0: #子进程等于1 print('----1----') time.sleep(1) else: #父进程大于1 print('----2----') time.sleep(1)...

Python3 多任务之---线程

咸甜适中

11-30

306

多线程 threading 模块方式一 import threading #或from threading import Thread import time def test(): print('线程输出……') time.sleep(1) if __name__ == '__main__': for i in range(5): t = thre...

"Python爬虫学习笔记：正则表达式与re库基本使用

Python爬虫学习笔记.pdf是一本介绍Python爬虫学习的重要文档。...因此，推荐对于爬虫学习感兴趣的朋友们，认真阅读并学习《Python爬虫学习笔记.pdf》中关于正则表达式的相关内容，相信会对你的学习和实践有所帮助。