目标:抓取包图网全站视频数据保存在本地,并以网站视频名命名视频文件。
网址:https://ibaotu.com/shipin/7-0-0-0-0-1.html
爬取第一步--检查 robots.txt
一般而言,大部分网站都会定义robots.txt 文件,该文件就是给 网络爬虫 了解爬取限制(一般建议遵守robots.txt 文件里面的限制)
无爬取限制
我们进入网站,点击下一页:
包图网第二页
目标:抓取包图网全站视频数据保存在本地,并以网站视频名命名视频文件。
网址:https://ibaotu.com/shipin/7-0-0-0-0-1.html
爬取第一步--检查 robots.txt
一般而言,大部分网站都会定义robots.txt 文件,该文件就是给 网络爬虫 了解爬取限制(一般建议遵守robots.txt 文件里面的限制)
无爬取限制
我们进入网站,点击下一页:
包图网第二页