本文章只用于技术拓展,不得破坏任何网站
1.在爬取之前,我们一定要清楚自己想要的数据;
2.首先我们尽量都设置一下headers;
3.然后我们需要查看到网页的url以及请求方式;
url:就是我们需要访问的网址;
请求方式:一般是post和get两种,我这里主要是get请求(post请求后续会给大家讲解),get请求一般比较简单。
4.再者就是我们在获取数据的时候会涉及到翻页,这时候我们就可以去点击下一页,然后观察url的变化,从而我们就可以观察到规律;
我这个很明显是两个参数在变化,所以我就需要写两个for循环来进行翻页 ;
5.然后我们需要来查看这个控制翻页的参数取值范围;
我这边是用的BeautifulSoup,然后通过找到对应的标签获取到翻页参数的最大值,当然如果不需要后期再进行爬取,可以直接将这个参数的最大值赋值,就不需要我这一步;
6.最后我们就可以爬取我们所需要的数据;
我这边也是用的BeautifulSoup,当然大家也可以使用正则表达式,但是个人还是倾向去BeautifulSoup;
涉及的方法讲解:
我代码里面涉及到一个self.url_requests(url)这个方法,是我自己写的一个requset请求(包含异常处理),大家可以直接使用request.get(url,headers=header)这个方法,如果需要我写的这个的方法也可以在下面评论联系我,我给大家发出来。
欢迎大家点赞评论