关闭

Python Xpath与Regex的区别

标签: pythonregexxpath
4545人阅读 评论(1) 收藏 举报
分类:

在进行网页信息抓取的时候,我们往往需要用到Regex或者Xpath。

二者的区别:

Regex本身是一种文本匹配的工具,由于需要多次尝试性地进行匹配,所以他适用于短小而又信息集中的文本。可以进行精确地匹配和攫取。但面对大容量的内容分散的HTML等文本,他的效率就会变得非常低。

Xpath与Regex不同,它本身是处理XML的工具,由于HTML是XML的一个真子集,所以他也适用于HTML。由此我们就可以看出来Xpath的适用范围比Regex要低很多。但适用范围小往往就更有针对性,Xpath通过树形的结构对XML进行遍历,对网页信息的抓取效率会高很多。

2
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:123478次
    • 积分:1581
    • 等级:
    • 排名:千里之外
    • 原创:43篇
    • 转载:11篇
    • 译文:0篇
    • 评论:4条
    文章分类
    最新评论