正则表达式常见函数(爬虫网页匹配)

最新推荐文章于 2021-04-07 14:20:29 发布

#叫啥名字呢

最新推荐文章于 2021-04-07 14:20:29 发布

阅读量1.1k

点赞数

分类专栏：数据分析师 Python网页爬虫文章标签：正则表达式

本文链接：https://blog.csdn.net/weixin_40411446/article/details/80764084

版权

本文介绍了正则表达式的使用，包括局部匹配的re.match()和re.search()函数，全局匹配的re.compile()配合findall()方法，以及正则表达式的替换操作。通过实例展示了如何使用正则表达式在爬虫中查找和提取网址。

摘要由CSDN通过智能技术生成

一、局部匹配（只匹配一个结果）

1.re.match()函数：从源字符的串的开头进行匹配

2.re.search()函数：在全文中进行检索并匹配

从例子中看区别：

import re
#string ="apythonhellomypythonisouorpythonend"
string = "hellomypythonispythonourpythonend"
pattern=".python."
result =re.match(pattern,string)
result2 = re.search(pattern,string)
print (result)
print (result2)

运行结果：

二、全局匹配（找出所有的匹配结果）

1）使用re.compile()对正则式进行预编译

2）编译后，使用findall(）根据正则表达式从源字符串中奖匹配的结果全部找出

import re
#string ="apythonhellomypythonisouorpythonend"
string = "hellomypythonispythonourpythonend"
pattern=".python."
su = re.compile(patte

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

#叫啥名字呢

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫之使用正则表达式匹配网页内容

sinat_34231101的博客

01-03

8814

Python爬虫，除了使用大家广为使用的scrapy架构外，还有很多包能够实现一些简单的爬虫，如BeautifulSoup、Urllib，在使用这些包时，有的网络因为比较复杂，比较难以找到自己想要的代码，在这个时候，如果能够使用正则表达式，将能很方便地爬取到自己想要的数据。何为正则表达式 正则表达式是一种描述字符串排列的一种语法规则，通过该规则可以在一个大字符串中匹配出满足规则的子字符串。简单来...

使用正则表达式实现网页爬虫。

wyhluckydog的博客

12-06

320

网页爬虫：就是一个程序用于在互联网中获取指定规则的数据。思路： 1.为模拟网页爬虫，我们可以现在我们的tomcat服务器端部署一个1.html网页。（部署的步骤：在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑，编辑内容为：） 2.使用URL与网页建立联系 3.获取输入流，用于读取网页中的内容 4.建立正则规则，因为这里我们是爬去网页...

参与评论您还未登录，请先登录后发表或查看评论

爬虫之正则匹配

weixin_45925906的博客

02-12

583

图片爬取数据解析原理概述解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储所以在进行数据解析时，应该分为两步 1.进行指定标签的定位 2.对标签或标签对应的属性中存储的数据进行提取案例：这里爬取的是糗事百科中的图片部分，我们可以先检查一下页面的html。可以看到，所有图片都以这样的标签形式存储在页面中，所以我们要想爬取页面上的图片，首先应该先获取页面的html文件，然后以正则表达式，让图片的标签与整个html进行匹配，从而获取到所有图片的src。代码如下： import req

网页解析---正则匹配

王子老师

06-20

483

爬取糗事百科网页图片数据：利用正则匹配url <div class="thumb"> <a href="/article/123230554" target="_blank"> <img src="//pic.qiushibaike.com/system/pictures/12323/123230554/medium/JVGP2HUEURQH8WJB.jpg" alt="糗事#123230554" class="illustration" width="100%" heig

python使用正则表达式编写网页小爬虫

最新发布

11-02

本资源汇总了正则表达式在爬虫中的常见应用，包括正则表达式的基本概念、爬虫的分类、爬虫的一些基本算法、正则表达式的常用函数及内置属性等。 正则表达式的作用 正则表达式的主要作用是对字符串进行匹配和提取。...

python使用正则表达式提取网页URL的方法

10-24

在Python中使用正则表达式提取网页URL是一项常用的技术，特别是在进行网络爬虫开发或者数据抓取时。正则表达式，又称正则式或规则表达式，提供了一种灵活的字符串匹配功能。在Python中，与正则表达式相关的模块是re...

爬虫基础（5）网页解析之正则表达式

Python达人

03-21

1581

文章目录一. 什么是正则表达式二. 正则表达式的基础知识（一）原子1. 普通字符2. 特殊字符和元字符3. 非打印字符4. 通用字符5. 原子表（二）元字符1. 任意匹配元字符2. 边界限制元字符3. 限定符4. 模式选择符5. 模式单元符（三）修饰符（四）贪婪模式与非贪婪模式三. 正则表达式常见的函数1. match()2. search()3. findall()4. compile()5. sub()四. 实例——爬取猫眼电影排行一. 什么是正则表达式 什么是正则表达式？简单来说，正则表达式是一些

Python爬虫运用正则表达式的方法和优缺点

10-16

当Python爬虫程序获取到网页内容后，会将HTML文档转换为字符串格式，然后利用正则表达式来匹配和提取信息。下面的步骤是具体如何运用正则表达式进行爬虫数据提取的： 1. 首先，通过requests模块发起网络请求，获取...

正则表达式和爬虫

风一般的男子·小亮仔

04-09

821

正则表达式 简介 正则表达式是由一些具有特殊含义的字符组成的字符串，用于查找，替换符合规则的字符串在表达单验证，Url映射等处都会经常用到。概述 (1)正则表达式：符合一定规则的表达式作用：用于专门操作字符串特点：用于一些特点的符号来表达一些代码操作，这样就简化书写，就是学特殊符号的使用。好处：可以简化对字符串的复杂的操作。弊端：符号定义越多，正则...

正则表达式（网页爬虫）

runHome的博客

04-10

293

/* 网页爬虫(蜘蛛) */ import java.io.*; import java.util.regex.*; import java.net.*; class RegexTest2 { public static void main(String[] args) throws Exception { //getMails(); getMails_1(); } p

正则表达式常用函数

weixin_45285714的博客

08-31

728

正则表达式常用函数 re.compile(pattern,flags) 功能：将正则表达式编译成一个对象，返回一个对象模式，需要正则的时候调用这个编译好的对象即可 re.match(pattern,string,flags) 功能：从字符串的开始来进行匹配，若匹配成功则返回匹配成功的对象若匹配不成功则返回None。注意：它是一个不完全匹配，若匹配成功之后，string还有剩余，仍然视为匹配 ...

python之正则表达式以及网络爬虫

成功不必在我，而功力必不唐捐！

12-22

4335

正则表达式 正则表达式 (Regular Expression) 又称 RegEx, 是用来匹配字符的一种工具. 在一大串字符中寻找你需要的内容. 它常被用在很多方面, 比如网页爬虫, 文稿整理, 数据筛选等等. 最简单的一个例子, 比如我需要爬取网页中每一页的标题. 而网页中的标题常常是这种形式. 我是标题而且每个网页的标题各不相同, 我就能使用正则表达式,

python爬虫定位和选择网页内容的几种方式比较 正则表达式\libxml、bs4、lxml和xpath、css选择器

weixin_41070748的博客

09-01

2258

一，数据抽取的工具 1，有哪些可供选择的方式 a,正则表达式； b,beautifulsoup; c,pyqurey； d,lxml; 2，这四种方式的特点 正则表达式：优点：异常的强大缺点：1，不够简单；2，可读性较差；3，不易更改； bs4：优点：1，提供的内容很少，又可以有效的抓取信息缺点：1，工具不够多...

【正则匹配】python使用正则re匹配获取符合正则条件的一个或多个结果

恒治学

08-16

3941

匹配一个结果 do_match = re.match(r'正则表达式', str) result_1 = do_match.group() # 获得包括正则表达式要求字符的结果 result_2 = do_match.group(1) # 只获取表达式()内的结果匹配多个结果 result = re,findall(r'正则表达式', str) # result是一个列表 ...

python爬虫数据采集使用的三种匹配方式:正则re，xpath，beautifulsoup4

weixin_44602651的博客

03-09

2747

一般情况下三种方式都是可以匹配到结果的，只是复杂程度不一致，根据情况进行选择re/xpath/bs4先进行简单的比较：一、正则re的使用二、lxml三、bs4 的使用先进行简单的比较：抓取工具速度使用难度安装正则re 最快一般内置 xpath 快简单简单 bs4 慢最简单简单注：xpath 一般与lxml 一起使用简单来说：正则re 是...

Python常用模块6-Python的re模块简介

只是甲的博客

04-07

839

文章目录一.re模块简介1.1 匹配符1.1.1 字符集合1.1.2 重复次数1.1.3 组合匹配符二.模块内容2.1 常用函数2.2 异常2.3 匹配对象三.正则案例3.1 re.search3.2 re.match3.3 re.fullmatch3.4 re.split3.5 re.findall参考: 一.re模块简介这个模块提供了与 Perl 语言类似的正则表达式匹配操作。模式和被搜索的字符串既可以是 Unicode 字符串 (str) ，也可以是8位字节串 (bytes)。但是，Unicod