当采集的网站或网页没有翻页时,能看到的只是最近前面的数据,如果想要批量采集更多数据应该怎么办?
本文介绍一些实用的网站无翻页采集方法和技巧。
目录
1. 详情文章页的网址有无规律
查看该网站的详情文章页的网址是否有规律变化,可以按照其规律批量生成文章页网址采集,无需通过列表页去获取详情文章的网址。
例如在简数采集器,点击详情页零散采集模式,再按照规律批量生成详情文章页网址即可。
2. 网站地图,或RSS网页等特殊网页
查找该网站有无网站地图或RSS网页,可以直接批量获取详情文章页的网址。
网站地图网址一般为:域名/sitemap.xml
或 域名/sitemap.html
在简数采集器,切换使用特殊网页采集模式即可。
3. Json数据格式网页
尝试获取返回Json数据格式的页面网址,可以使用chrome浏览器的开发者工具获取。
然后再简数采集器,可以切换使用Json数据模式来采集Json数据格式的页面。