https://zhuanlan.zhihu.com/p/108763540
web scraper 进阶教程,人人都用得上
web scraper 抓取网页数据的几个常见问题
https://www.cnblogs.com/fengzheng/p/10404445.html
操作步骤笔记,方便查看
文章目录
一、网址有规律变化进行翻页
北京人才网
第一页链接:https://jobs.51job.com/beijing/p1/
第二页链接:https://jobs.51job.com/beijing/p2/
爬取前5页试一下
获取前n页,步长为m的页面,起始页设置为:
[1-n]或者[1-n:m]
例如:
www.0797rs.com/news/list-10–[1-5:2].html 获取前5页,步长为2 即得到 1、3、5 页
二、点击翻页器 爬取信息
网址不变 只有翻页器 或者 没有规律
以北京人才网为例
北京人才网_北京最新人才招聘信息
第一页链接:https://jobs.51job.com/beijing/p1/
第二页链接:https://jobs.51job.com/beijing/p2
创建一个新的 “项目”
首先筛选出点击翻页器的链接
选择完毕
三、点击【加载更多】进行翻页
以豆瓣电影为例
保存
四、动态加载 翻页(点击翻页器,URL不变)
动态加载 理解为打开网页时,所有数据已经加载完成的,只不过通过网页手段分割成不同的页。
以菜坝网为例
http://www.cb023.com/#/store/allGoods/e465867e6a66066f620d35e810b36bbc
.
运行
五、爬取二级页面内容
以小说网站为例
页码变化
第一页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=1&sort=&isFromHuayu=
第二页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=2&sort=&isFromHuayu=
第三页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=3&sort=&isFromHuayu=
替换
运行