python爬虫-数据解析（xpath）

最新推荐文章于 2024-08-03 14:18:54 发布

南岸青栀*

最新推荐文章于 2024-08-03 14:18:54 发布

阅读量1.7w

点赞数 53

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_43710889/article/details/115059579

版权

xpath基本概念

xpath解析：最常用且最便捷高效的一种解析方式。通用性强。

xpath解析原理

1.实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中
2.调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获。

环境安装

pip install lxml

如何实例化一个etree对象：

from lxml import etree

1.将本地的html文件中的远吗数据加载到etree对象中：

etree.parse(filePath)

2.可以将从互联网上获取的原码数据加载到该对象中：

etree.HTML(‘page_text’)

xpath(‘xpath表达式’)

- /:表示的是从根节点开始定位。表示一个层级
- //:表示多个层级。可以表示从任意位置开始定位
- 属性定位：//div[@class='song'] tag[@attrName='attrValue']
- 索引定位：//div[@class='song']/p[3] 索引从1开始的
- 取文本：
	- /text()获取的是标签中直系的文本内容
	- //text()标签中非直系的文本内容（所有文本内容）
- 取属性：
	/@attrName	==>img/src

xpath爬取58二手房实例

爬取网址

https://xa.58.com/ershoufang/

完整代码

from lxml import etree
import requests

if __name__ == '__main__':
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }
    url = 'https://xa.58.com/ershoufang/'
    page_text = requests.get(url=url,headers=headers).text
    tree = etree.HTML(page_text)
    div_list = tree.xpath('//section[@class="list"]/div')
    fp = open('./58同城二手房.txt','w'