python通过静态和动态的方式爬取网站页面URL
爬取网站所有页面的url,可通过获取<a>标签里面的href的方式,进行递归操作,从而获取到整个网站的url。拿到url后,可请求该url,根据页面返回的状态码来简单验证页面是否可正常打开。这里需要注意的是,需要将抓取到的url进行重复过滤,避免存入重复的url,导致无限递归。由于不同网页获取数据的方式不同,有的是静态获取,有的是动态获取,所以需要根据网页的类型,使用不同的方法进行...
原创
2019-11-25 19:27:54 ·
1649 阅读 ·
0 评论