Python Xpath与Regex的区别

原创 2015年07月10日 09:54:10

在进行网页信息抓取的时候,我们往往需要用到Regex或者Xpath。

二者的区别:

Regex本身是一种文本匹配的工具,由于需要多次尝试性地进行匹配,所以他适用于短小而又信息集中的文本。可以进行精确地匹配和攫取。但面对大容量的内容分散的HTML等文本,他的效率就会变得非常低。

Xpath与Regex不同,它本身是处理XML的工具,由于HTML是XML的一个真子集,所以他也适用于HTML。由此我们就可以看出来Xpath的适用范围比Regex要低很多。但适用范围小往往就更有针对性,Xpath通过树形的结构对XML进行遍历,对网页信息的抓取效率会高很多。

版权声明:本文为博主原创文章,未经博主允许不得转载。

xpath从此放弃正则表达式

本次的问题是从网页中提取url产生的。 xpath介绍自己百度,这里有两个重点,提取文本内容/text(),提取属性内容/@xxx 下面举例说明使用介绍,前提条件有lxml模块 首先点击图片,查看元素...
  • qq_22222499
  • qq_22222499
  • 2017年03月01日 23:05
  • 1638

大白痴学习webmagic

webmagic官网:webmagic.io 刚刚开始学,很多东西可能理解错了,还请各位指教 一些基本类: Request:包含要爬行的url和一些附加信息,是Page的...
  • caomiao2006
  • caomiao2006
  • 2016年05月29日 19:20
  • 1488

python爬虫提取信息:正则表达式和xpath

由于作者水平有限,只写出相关关键词,并未给出详细解释。 爬虫主要是两个功能,一是访问网页,二是从网页中提取数据。事实上访问网页基本都是调用接口直接就可以访问,而从网页中正确地提取数据是主要工作量所...
  • qq_22905955
  • qq_22905955
  • 2017年06月20日 17:26
  • 732

Python 爬虫学习笔记二: xpath 模块

Python 爬虫学习笔记二: xpath from lxml 首先应该知道的是xpath 只是一个元素选择器, 在python 的另外一个库lxml 中, 想要使用xpath 必须首先下载lxml ...
  • JennyChen66
  • JennyChen66
  • 2017年11月14日 16:27
  • 204

python爬虫里信息提取的核心方法: Beautifulsoup、Xpath和正则表达式

20170531 这几天重新拾起了爬虫,算起来有将近5个月不碰python爬虫了。 对照着网上的程序和自己以前写的抓图的程序进行了重写,发现了很多问题。总结和归纳和提高学习效果的有效手段,...
  • LINGOJAMES
  • LINGOJAMES
  • 2017年06月01日 22:33
  • 3361

XPath在python中的高级应用

XPath在python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。XPath介绍: ...
  • Winterto1990
  • Winterto1990
  • 2015年08月23日 10:19
  • 20589

使用Requests+xpath实现简单的数据爬取

今天使用Requests+xpath实现简单的数据爬取,获取的是CSDN博客上的标题,发表时间,和阅读次数下载PyCharm这里我使用的是PyCharmhttp://www.jetbrains.com...
  • mockingbirds
  • mockingbirds
  • 2017年04月30日 14:29
  • 4532

python爬虫入门笔记:XPath与lxml库

lxml库是一个比较流行的解析库,使用的是XPath语法,效率比较高的解析方法。 主要学习资料是极客学院的定向爬虫、w3school​。 XPath简介:XPath 是一门在 XML ...
  • flyingfishmark
  • flyingfishmark
  • 2016年04月28日 10:44
  • 3601

python里的xpath使用浅析

以下内容转载自:http://blog.csdn.net/betabin/article/details/24392369 -----------------------------------...
  • lifelegendc
  • lifelegendc
  • 2017年05月11日 16:00
  • 821

Python爬虫:Xpath语法笔记

一、选取节点 常用的路劲表达式: 表达式 描述 实例   nodename 选取nodename节点的所有子节点 xpath(‘//...
  • qw_xingzhe
  • qw_xingzhe
  • 2016年11月06日 22:54
  • 329
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python Xpath与Regex的区别
举报原因:
原因补充:

(最多只允许输入30个字)