python - scrapy - xpath (一)

最新推荐文章于 2024-08-06 16:04:58 发布

落落殿下

最新推荐文章于 2024-08-06 16:04:58 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/qq_42512064/article/details/81042948

版权

本文介绍了使用Python Scrapy框架进行网页爬取，特别是XPath作为选择器来定位网页元素的方法。通过实例展示了如何爬取淘宝页面上的特定数据，包括查找带有特定class的div、h2、ul、li和a元素。

摘要由CSDN通过智能技术生成

学习python爬虫（scrapy模块），首先准备python环境，安装第三方包scrapy

（mac环境可参考：https://blog.csdn.net/qq_42512064/article/details/80982470），准备好环境后，从第一个简单的爬虫程序开始吧！

一、简介：爬虫就是获取网页的数据，获取简单的数据容易，解析其中的数据拿到自己想要的却不那么容易，大家都知道网页是有很多元素组成：<div>、<p>、<h>、<a>等，每一种元素都有很多个，通过什么去识别这些元素呢，scrapy提供两种方式，xpath和css，从字面上理解，xpath就是通过元素在网页中的路径去识别元素（下表为xpath中路径表达式列表）。

二、爬淘宝的一丢丢数据

1、淘宝页面（爬取下图框框中的数据）

2、页面右键“查看源代码”

3、完整代码先贴在这里

#coding:utf-8

import urllib2
# import platform
from scrapy.selector import Selector

resp = urllib2.urlopen('https://www.taobao.com/', timeout=3)
# my_os = platform.system()
# print 'my_os: