python - scrapy - xpath (一)

本文介绍了使用Python Scrapy框架进行网页爬取,特别是XPath作为选择器来定位网页元素的方法。通过实例展示了如何爬取淘宝页面上的特定数据,包括查找带有特定class的div、h2、ul、li和a元素。
摘要由CSDN通过智能技术生成

学习python爬虫(scrapy模块),首先准备python环境,安装第三方包scrapy

(mac环境可参考:https://blog.csdn.net/qq_42512064/article/details/80982470),准备好环境后,从第一个简单的爬虫程序开始吧!


一、简介:爬虫就是获取网页的数据,获取简单的数据容易,解析其中的数据拿到自己想要的却不那么容易,大家都知道网页是有很多元素组成:<div>、<p>、<h>、<a>等,每一种元素都有很多个,通过什么去识别这些元素呢,scrapy提供两种方式,xpath和css,从字面上理解,xpath就是通过元素在网页中的路径去识别元素(下表为xpath中路径表达式列表)。


二、爬淘宝的一丢丢数据

1、淘宝页面(爬取下图框框中的数据)



2、页面右键“查看源代码”



3、完整代码先贴在这里

#coding:utf-8

import urllib2
# import platform
from scrapy.selector import Selector

resp = urllib2.urlopen('https://www.taobao.com/', timeout=3)
# my_os = platform.system()
# print 'my_os:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值