Python Xpath与Regex的区别

原创 2015年07月10日 09:54:10

在进行网页信息抓取的时候,我们往往需要用到Regex或者Xpath。

二者的区别:

Regex本身是一种文本匹配的工具,由于需要多次尝试性地进行匹配,所以他适用于短小而又信息集中的文本。可以进行精确地匹配和攫取。但面对大容量的内容分散的HTML等文本,他的效率就会变得非常低。

Xpath与Regex不同,它本身是处理XML的工具,由于HTML是XML的一个真子集,所以他也适用于HTML。由此我们就可以看出来Xpath的适用范围比Regex要低很多。但适用范围小往往就更有针对性,Xpath通过树形的结构对XML进行遍历,对网页信息的抓取效率会高很多。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

python应用regex正则表达式模块re

#!/usr/bin/env python # -*- coding: utf-8 -*- import re def regex(): str = 'abcdab' ...
  • five3
  • five3
  • 2011年12月13日 22:38
  • 13235

[Python] regex正则的所有元字符文档

摘自官方文档 python2.7x版本 http://docs.python.org/2/library/re.html 有一些分组操作很多书上说的太简单了。  The special charac...

python regex 入门笔记

可以参考这篇博文: http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.htmlimport re正则表达式,我的理解就是匹配文本中的pat...

Python 正则表达式(Regex)

python 正则表达式
  • abe_abd
  • abe_abd
  • 2017年06月22日 21:17
  • 124

【Regex】初试Python下的中文正则表达式

真的是第一次在Python上做正则表达式呀……走了好多弯路,表示自己实在是笨的不行,难得实现了个小Demo,做点备忘好了。 简要概括一下就是:英文正则亲和度蛮高的,随意;中文,转成Unicode再说...
  • okcd00
  • okcd00
  • 2016年07月05日 12:25
  • 634

Python的regex模块——更强大的正则表达式引擎

Python自带了正则表达式引擎(内置的re模块),但是不支持一些高级特性,比如下面这几个: 固化分组    Atomic grouping占有优先量词    Possessive quanti...
  • lwqhp
  • lwqhp
  • 2017年06月07日 00:26
  • 800

Python3-正则表达式-创建、匹配Regex对象

用正则表达式查找文本模式字符串中查找电话号码。只知道模式: 3个数字,一个短横线,4个数字,一个短横线,再是4个数字。例如:010-8888-8888,或010.8888.8888或(010) 888...

regex 正则表达式 需要转义的特殊字符 以及 java、python实现

在对mongoDB通过正则表达式regex进行模糊查询时,发现一些特殊字符无法查询,比如“(”等,通过查阅资料,发现需要对一些特殊字符进行转义,需要转义的特殊字符有* . ? + $ ^ [ ] ( ...

python神奇xpath

  • 2015年10月07日 20:22
  • 458KB
  • 下载

关于xpath相对路径前加点与不加点的区别

selenium中xpath相对路径前是否加点的区别
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python Xpath与Regex的区别
举报原因:
原因补充:

(最多只允许输入30个字)