动态换ip软件:手把手教你搭建Cookies池

  很多时候,在抓取没有登陆的情况下,咱们也能够访问一部分网站页面或请求一类接口,因为毕竟网站本身须要做SEO,不会对所有网站页面都设置登陆限制。

  可是,不登陆直接抓取会有一类坏处,坏处主要有以下两点。

  设置了登陆限制的网站页面无法抓取。如某论坛设置了登陆才可查看资源,某博客设置了登陆才可查看全文等,这些网站页面都须要登陆账号才能够查看和抓取。

  一类网站页面和接口虽然能够直接请求,可是请求一旦频繁,访问就容易被限制或者IP直接被封,可是登陆之后就不会出现这样的问题,因此登陆之后被反爬的可能性更低。

  Cookies池中保存了许多新浪微博账号和登陆后的Cookies信息,并且Cookies池还须要定时检测每个Cookies的有效性,如果某Cookies无效,那就删除该Cookies并模拟登陆生成新的Cookies。同时Cookies池还须要一个非常重要的接口,即获取随机Cookies的接口,Cookies运行后,咱们只需请求该接口,即可随机获得一个Cookies并用其抓取。

  由此可见,Cookies池须要有自动生成Cookies、定时检测Cookies、提供随机Cookies等几大核心功能。

  准备工作

  搭建之前肯定须要一类微博的账号。须要安装好Redis数据库并使其正常运行。须要安装Python的RedisPy、requests、Selelnium、Flask库。另外,还须要安装Chrome浏览器并配置好ChromeDriver。

  Cookies池架构

  Cookies的架构和代理池类似,同样是4个核心模块,如下图所示。

  

  Cookies池架构的基本模块分为4块:存储模块、生成模块、检测模块、接口模块。每个模块的功能如下。

  存储模块负责存储每个账号的用户名密码以及每个账号对应的Cookies信息,同时还须要提供一类方法来实现方便的存取操作。

  生成模块负责生成新的Cookies。此模块会从存储模块逐个拿取账号的用户名和密码,然后模拟登陆目标网站页面,判断登陆成功,就将Cookies返回并交给存储模块存储。

  检测模块须要定时检测数据库中的Cookies。在这里咱们须要设置一个检测链接,不同的站点检测链接不同,检测模块会逐个拿取账号对应的Cookies去请求链接,如果返回的状态是有效的,那么此Cookies没有失效,否则Cookies失效并移除。接下来等待生成模块重新生成即可。

  接口模块须要用API来提供对外服务的接口。由于可用的Cookies可能有多个,咱们能够随机返回Cookies的接口,这样保证每个Cookies都有可能被取到。Cookies越多,每个Cookies被取到的概率就会越小,从而减少被封号的风险。

  以上设计Cookies池的的基本思路和前面讲的代理池有相似之处。接下来咱们设计整体的架构,然后用代码实现该Cookies池。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31561288/viewspace-2564185/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31561288/viewspace-2564185/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值