Day-3页面分析(Xpath)

本文介绍了如何使用XPath进行网页爬取分析,包括京东图书API接口的探索,分类和翻页机制的解析,以及XPath的基本使用和安装。通过分享XPath安装包,解析图书数据的步骤,详细阐述了爬虫项目的一半进程,强调了明确需求、环境配置和数据存储的重要性,并预告了后续可能涉及的反爬策略和前端展示。
摘要由CSDN通过智能技术生成

一、爬取分析

爬虫是非常考验随机性的,运气性,以及思维跳跃的

在此次项目中,首先我们找到京东图书的页面,进入到里边

京东所有图书的API接口是:

http:/book.jd.com/booksort.html

(建议自己去京东网站自己找一下)

对于每一本书来说,它都会有大分类,小分类

思考:

1.分类的爬取

2.翻页   ---> nextwork(谷歌检查)

3.循环遍历的终点

4.如何判断当前小分类的图书抓取完毕

 

 

1.在提取nextwork的路由的时候,可以使用谷歌抓包的工具,点击next work来找到

2.如果程序员的是规范的程序员,一般来说都是用的page

嗯。。。。总的来说谷歌浏览器真香

翻页的网址,主要的是page这个参数,开循环抓取

 

二、xpath基本使用

1.分享xpth的安装包

https://pan.baidu.com/s/14hqPKdvW4A6ib7RpYY8Ttw

提取码:

751q

安装的方法:

解压,找到谷歌浏览器的扩展程序,拖进去就欧克

2.具体的xpth语法,在我之前的博客,可以自己学习一下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值