# 写了淘宝抓取所有手机信息的代码,有时间发~
过滤器:用从internet中获取的ip或代理,去登录百度之类的网址,看是否能登录,从而过滤掉无用的
代理队列: 过滤器后得到的有用的代理,放里面。
定时检测:防止代理队列里面有失效的代理
API: 需要实现一个接口,通过这个接口实现从代理队列中拿出代理。用数据库存代理:用web服务,拿出最新的一个代理,放在网页中,从而形成接口,--请求接口即可
有时候会爬虫会有封ip的操作,所以此时要用到代理池。
从github上去找代理池的实现
# 写了淘宝抓取所有手机信息的代码,有时间发~
过滤器:用从internet中获取的ip或代理,去登录百度之类的网址,看是否能登录,从而过滤掉无用的
代理队列: 过滤器后得到的有用的代理,放里面。
定时检测:防止代理队列里面有失效的代理
API: 需要实现一个接口,通过这个接口实现从代理队列中拿出代理。用数据库存代理:用web服务,拿出最新的一个代理,放在网页中,从而形成接口,--请求接口即可
有时候会爬虫会有封ip的操作,所以此时要用到代理池。
从github上去找代理池的实现
转载于:https://www.cnblogs.com/ironstickagain/p/8407358.html