解析数据的三大工具：re、bs4和xpath

最新推荐文章于 2025-01-02 20:11:10 发布

原创最新推荐文章于 2025-01-02 20:11:10 发布 · 732 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#xpath

python 专栏收录该内容

6 篇文章

订阅专栏

本文介绍了使用Python的re模块预编译正则表达式，通过finditer方法查找网页中的特定信息。接着，利用BeautifulSoup解析HTML页面，查找指定标签的数据行。最后，运用lxml库的XPath方法提取XML数据。这些技术常用于网络爬虫的数据抓取和处理。

1、re模块
预加载正则表达式：

import re
import csv
obj=re.complie(r'#')
reader=obj.finditer(resp.text)
for it in reader:
  ul=it.group('#')
f=open('#.csv',mode='w',encoding='utf-8')
csvwriter=csv.writer(f)

2、bs4
把页面源代码交给BeautifulSoup处理，生成源数据
从bs中查找数据

from bs4 import BeautifulSoup
page=BeautifulSoup(rexp.text,'html.parser')
table=page.find('标签','属性=值')

拿到所有数据行

trs=table.find_all('tr')[1:]

3、xpath

from lxml import etree
tree=etree.xml(xml)
result=tree.xpath('')
print(result)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jiuxianfei

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

爬虫系列（一）：解析网页的常见方式汇总——re、bs4、xpath——以链家租房信息爬取为例

sun666shine的博客

08-14

1474

这是本人第 2 篇博客，也是爬虫系列的第 1 篇博客。爬虫是我很早之前就开始接触的工具，主要用于爬取新浪财经的数据，毕竟当时没有Wind账号，找起数据很苦逼，只能自立更生。接下来一年左右，个人自由时间较为宽裕，想利用这段时间将自己的编程技能体系化，爬虫是我进行梳理的第一大部分，记录在此，供自己日后查阅，也希望可以帮助新入门者少走一些弯路。注：爬虫系列所有案例仅供个人学习使用。本文将以链家北京租房信息页面爬取为例，重点介绍如何通过re、bs4、xpath三种方式解析网页内容，抓取租房信息的相关内.

自学Python第十五天-常用的HTML解析工具：bs4、xpath、re

runsong911的博客

02-27

1172

之前应该写过关于 bs4、xpath、re 的python使用文章，但是找不到了。因为这3种工具在 html 解析中经常用到，所以重新写一遍。在 python 学习中绕不过去的就是，学习爬虫绕不过去的就是，而最常用的解析工具就是和了。

参与评论您还未登录，请先登录后发表或查看评论

爬虫（requests、re、bs4、xpath）

m0_52547536的博客

07-10

1045

爬虫（requests、re、bs4、xpath）

re&xpath&bs4

weixin_30412577的博客

12-24

158

一、re 二、xpath 三、bs4 转载于:https://www.cnblogs.com/hougang/p/rexpathbs4.html

xpath,正则表达式re，bs4总结及实战

misaka的博客

04-22

2126

xpath xpath使用路径表达式再xml文档中进行导航，是一个标准函数库，还有w3c标准。在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（或称为根节点）。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。 Xpath常用的路径表达式表达式描述 nodename 选取此节点的所有子节点 / 从根节点选取所属...

【网络爬虫】python中的数据解析工具(re,bs4,xpath,pyquery)

星火飞花

10-17

1527

网络数据解析基础工具

浅谈解析库XPath，bs4和pyquery

12-21

总结来说，XPath、bs4和pyquery都是Python中强大的HTML解析工具，它们各自有独特的优点和应用场景。XPath适合精确的路径表达式查找，bs4适合于灵活且简单的DOM操作，而pyquery则为Python带来了类似JavaScript的查询...

Yao-BH_re-bs4-Xpath_24844_1754232661557.zip

最新发布

08-05

这个压缩包文件“Yao-BH_re-bs4-Xpath_24844_1754232661557.zip”很可能包含了使用Python语言进行网络数据抓取和解析的相关代码，特别是结合了BeautifulSoup和XPath技术，以及可能的正则表达式处理能力。该项目可能...

爬虫学习二： bs4 xpath re

weixin_44023658的博客

02-04

898

欢迎关注datawhale：http://www.datawhale.club/ 2.1 Beautiful Soup库入门目标： 2.1.1 Beautiful Soup库的基本元素 2.1.2 基于bs4库的HTML内容遍历方法 2.1.3 基于bs4库的HTML内容的查找方法 2.1.4 实战：中国大学排名定向爬取 2.2 学习xpath 目标： 2.2.1 Xpath常用的路径表达式 2.2.2 使用lxml解析 2.2.3 实战：爬取丁香园-用户名和回复内容 2.3 学习正则表达式re

HTML网页解析之Xpath,bs4及re

hu_hao的博客

04-23

1811

HTML网页解析篇 1.常用工具介绍 Xpath:XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。 bs4:一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。 re:正则表达式是一种通用的字符串表达框架，用来基于匹配模式测试字符串内的模式，替换文本和查找文本。 2.各工具详解 2.1 Xpath XPa...

用xpath、bs4、re爬取B站python数据

weixin_34310369的博客

08-07

207

import requests,re from lxml import etree from bs4 import BeautifulSoup def get_page(page): try: #这里要加上cookie headers = { ...

爬虫打卡2之定位工具xpath、bs4、re学习总结

杰公子的博客

04-23

665

xpath XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。在XPath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML文档是被作为节点树来对待的。 XPath和CSS选择符十分相像!但XPath有更强大的地方,比如它可以定位到body元素下具体位置上的p或可以选择前N个p: body/p[...

python爬虫的xpath、bs4、re方法

xiaojiang0918的博客

10-18

1402

1.re正则表达式 # 正则表达式分析：找开始和结束标签，两个标签之间把想要的内容需要包含进来，然后依次查找分析。 pat = r'<div class="post floated-thumb">(.*?)<p class="align-right"><span class="read-more">' # 使用findall方法查找符合要求的全部内容，放..

Python----Python爬虫（re、bs4、pyquery、xpath、json的使用）

weixin_64110589的博客

01-02

1647

Python----Python爬虫（re、bs4、pyquery、xpath、json的使用）

爬虫思路对比：xpath和Re正则表达式区别到底在哪？bs4,requests,urllib,xpath,re这些东西区别在哪？（先看路径表达式）

weixin_69070089的博客

10-14

1539

爬虫思路对比：xpath和Re正则表达式区别到底在哪？bs4,requests,urllib,xpath,re这些东西区别在哪？（先看路径表达式）

python爬虫编程实战task2-bs4、xpath、re学习与相关实战

weixin_44104450的博客

04-23

465

1、bs4学习与实战我感觉bs4虽然可以解析和提取 HTML/XML 数据，但是匹配效率还是远远不如正则以及xpath的，一般不推荐使用，在这里不作为重点学习。实战之中国大学排名定向爬取： # 导入库 import requests from bs4 import BeautifulSoup import bs4 # 1. 从网络上获取大学排名网页内容 def getHTMLText(url)...

Python爬虫编程实践--re bs及xpath

weixin_41660160的博客

04-23

788

Beautiful Soup库入门 Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。 BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支...

正则、xpath、bs4三者区别

weixin_42657103的博客

07-31

4372

本篇以获取美食杰菜谱图片为例，分别采用正则、xpath、bs4 三种方式，获取同一内容，进行对比，分析三者区别。 url = 'https://www.meishij.net/chufang/diy/guowaicaipu1/japan/' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:...

我在学习爬虫，请详细讲解re,bs4和xpath三种不同方法的使用细节

03-19

嗯，用户现在在学习爬虫，想了解re、bs4和xpath这三种方法的使用细节。我需要详细讲解每个库的使用步骤、优缺点以及给出示例代码。首先得回忆一下这三个工具各自的特点和常见用法。首先，re模块是Python的正则...