Python 爬虫学习笔记二： xpath 模块

最新推荐文章于 2024-02-01 16:42:30 发布

VIP文章 JennyChen333

最新推荐文章于 2024-02-01 16:42:30 发布

阅读量1.4w

点赞数 6

分类专栏： python爬虫文章标签： python 爬虫 xpath

本文链接：https://blog.csdn.net/JennyChen66/article/details/78531233

版权

Python 爬虫学习笔记二： xpath from lxml

首先应该知道的是xpath 只是一个元素选择器，在python 的另外一个库lxml 中，想要使用xpath 必须首先下载lxml 库
lxml 库的安装：很简单，具体请查看 http://www.jianshu.com/p/2bc5aa0db486
上述链接中有如何安装lxml ，以及如何使用xpath的入门程序，以及xpath 的初始语法

pip install lxml

初始实践的code 记录：

from lxml import etree
import requests
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
finalURL = url+region
price = 'p23'
r= requests.get(finalURL)
r.text
html = requests.get(finalURL).content.decode('utf-8')
dom_tree = etree.HTML(html)
links = dom_tree.xpath("//div/span[@class='info-col row2-text']/a")

for i in links:
    print(i.text)

links_yaoshi = dom_tree.xpath("//div/span[@class='c-prop-tag2']")

for i in links_yaoshi:
   print(i.text)

links_danjia = dom_tree.xpath("//span[@class='info-col price-item minor']")

for index in range(len(links_yaoshi)):
    print(index)
    print(links[index].text)
    print(links_yaoshi[index].text)
    print(links_danjia[index].text)

本来想要将这些不同标签下的信息分别取出，在打印的时候再将信息进行合并，但是输出的结果格式不符合标准并且爬出的element数量不一致导致代码报错。
一定注意 xpath 查找提取结果是可以用“|”来提取多个results，所以最终的code 如下：

from lxml import etree
import requests
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
finalURL = url+region
price =

最低0.47元/天解锁文章

JennyChen333

关注

6
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
Python 爬虫学习笔记二： xpath 模块

Python 爬虫学习笔记二： xpath from lxml首先应该知道的是xpath 只是一个元素选择器，在python 的另外一个库lxml 中，想要使用xpath 必须首先下载lxml 库lxml 库的安装：很简单，具体请查看 http://www.jianshu.com/p/2bc5aa0db486 上述链接中有如何安装lxml ，以及如何使用xpath的入门程序，以及
复制链接

扫一扫