最近看到了一个真实的网友身上发生的事:
某公司主管让小美(我编的名字)去某官网查询A公司在20xx年-20xx年的处罚判决书,研究了半天没发现什么便捷办法,只能先搜关键词处罚,再筛选公司名称,但是一共有二十多个省份,这么做效率实在是太低了.
于是小美找到了擅长python的B同学,看看能否直接爬取数据,在excel里面筛选,经过沟通,写代码,一顿操作之后,成功跑出来了第一个省份的数据。
结果你猜怎么着….正在跑第二个省份的时候,网站里突然搜不到信息了,这就是触发了网页的防御机制,IP被封禁了。
可怜的小美只能决定继续人工搜索。。。
其实这件事的解决方法特别的简单,告诉你:到协采云官网选择合适的动态IP,再接入你的爬虫程序,就可以避免这种情况啦!
这位同学,看来不是经常写爬虫,不了解还有代理ip这个秘籍,而专业的爬虫er都知道:代码好写,但是爬虫不光是一段代码就能顺利跑起来的啊,因为一般来说,网页为了让自己的网站正常运行,或者保护自己的内容不被窃取,都会设有反爬虫机制,封禁IP就是其中的一种手段,还有各种反爬策略,使用代理IP可以很好的解决这种问题。