xpath从此放弃正则表达式

最新推荐文章于 2024-03-20 17:15:03 发布

wending-Y

最新推荐文章于 2024-03-20 17:15:03 发布

阅读量5.2k

点赞数 1

分类专栏： Python 前端文章标签： url 正则表达式 xpath python

本文链接：https://blog.csdn.net/qq_22222499/article/details/59181603

版权

前端同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

Python

14 篇文章 0 订阅

订阅专栏

本次的问题是从网页中提取url产生的。地址http://beijing.anjuke.com/sale/
xpath介绍自己百度，这里有两个重点，提取文本内容/text(),提取属性内容/@xxx
下面举例说明使用介绍，前提条件有lxml模块
首先点击图片，查看元素，得到xpath

5.得到的是原始是”//[@id=”houselist-mod”]/li[2]/div[1]/img” 这里我要提取的img里面的src,从结构中我们很容易得到修改后的结果”//[@id=”houselist-mod”]/li/div[1]/img/@src”
6.这里最好把页面的源代码保存下来，放在一个本地文件中，因为我试了，直接通过代码得到源代码的，中间最重要的部分，得不到。下面的代码展示

#coding:utf-8
import re
from lxml import etree
class splider:
   def printurl(self):
        te=open("3.txt")
        cont=te.read()
        selector=etree.HTML(cont)
        texturl=selector.xpath('//*[@id="houselist-mod"]/li/div[1]/img/@src')
        print "符合条件个数" +str(len(texturl))      
        for text in texturl:    
            print text
if __name__ == '__main__':
    sp=splider()
    sp.printurl()

这里写图片描述
7.再举一个得到内容的例子

得到的原始内容是//[@id=”houselist-mod”]/li[2]/div[2]/div[2]/span[1]分析得到//[@id=”houselist-mod”]/li/div[2]/div[2]/span/text() 这里我做了点处理。信息成条显示。

#coding:utf-8
import re
from lxml import etree
class splider:
   def printurl(self):
        te=open("3.txt")
        cont=te.read()
        selector=etree.HTML(cont)
        texturl=selector.xpath('//*[@id="houselist-mod"]/li/div[2]/div[2]/span/text()')
        i=0;     
        detail=""
        for text in texturl:  
            if i==5:
               print detail[:-1]
               i=1;
               detail=text+"|"

            else:             
                i=i+1
                detail=detail+text+"|"

if __name__ == '__main__':
    sp=splider()
    sp.printurl()

这里写图片描述

wending-Y

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
2
评论
xpath从此放弃正则表达式

本次的问题是从网页中提取url产生的。xpath介绍自己百度，这里有两个重点，提取文本内容/text(),提取属性内容/@xxx下面举例说明使用介绍，前提条件有lxml模块首先点击图片，查看元素，得到xpath 5.得到的是原始是”//[@id=”houselist-mod”]/li[2]/div[1]/img” 这里我要提取的img里面的src,从结构中我们很容易得到修改后的结果”//[@
复制链接

扫一扫