一、爬取分析
爬虫是非常考验随机性的,运气性,以及思维跳跃的
在此次项目中,首先我们找到京东图书的页面,进入到里边
京东所有图书的API接口是:
http:/book.jd.com/booksort.html
(建议自己去京东网站自己找一下)
对于每一本书来说,它都会有大分类,小分类
思考:
1.分类的爬取
2.翻页 ---> nextwork(谷歌检查)
3.循环遍历的终点
4.如何判断当前小分类的图书抓取完毕
1.在提取nextwork的路由的时候,可以使用谷歌抓包的工具,点击next work来找到
2.如果程序员的是规范的程序员,一般来说都是用的page
嗯。。。。总的来说谷歌浏览器真香
翻页的网址,主要的是page这个参数,开循环抓取
二、xpath基本使用
1.分享xpth的安装包
https://pan.baidu.com/s/14hqPKdvW4A6ib7RpYY8Ttw
提取码:
751q
安装的方法:
解压,找到谷歌浏览器的扩展程序,拖进去就欧克
2.具体的xpth语法,在我之前的博客,可以自己学习一下