想必有部分程序员也写过一些爬虫程序吧,不论是java语言还是php语言还是python等,都可以轻松实现,用php一行代码就可以抓取一个网页,不过后续要处理的细节还是蛮多,各种去噪处理什么的,另外还要注意的一点就是要遵循一定的规则,有的网站是不希望被抓取的,在网站的根目录下会有一个robot.txt之类的文件,爬虫要遵守这个规则,如果不遵守这个规则就算是比较流氓的做法了,近期一个程序员就给我们分享了他的一个遭遇。
这名程序员写了一个爬虫程序,他写的这个程序可能就没有遵守爬虫规则,他试图去抓取对方的网站后却抓来一行文字(傻逼,你爬个锤子!),看到这行文字后令他哭笑不得,他感觉对方是在挑衅,这名程序员就发出如下的感慨:“对爬虫能不能友好点,这么挑衅,就得搞死你,尊严问题,不是数据的问题了,都是开发,何必呢”,针对这名程序员网友的这种情况,让我们一起看看其他网友们都是怎么看待的吧!
网友一:我觉得这种还好,我们识别到爬虫都是不封接口故意给错误数据的…………
上世是朵花:这名网友他们的做法是不封接口,给错误数据,不过楼主的情况,给的数据具有挑衅的性质,更容易让对方攻击。
网友二:可以幽默一点嘛
上世是朵花:是的,来一个搞笑风格的会好一点,这样不至于得罪对方,也委婉的拒绝了对方爬取数据。
网友三:死循环请求搞奔他
网友回复网友三:你以为人家傻么?你根本就到不了应用服务器就被拦了
上世是朵花:技术这个东西,道高一尺魔高一丈,看有没有必要,需要花多大的成本看具体情况了,攻和防都是无上限的。
网友四:这很容易得罪别人,小心被攻击
上世是朵花:如果得罪一个高手,估计就真的与他们进行一次技术较量一下了。
网友五:这种是常见的手段了
上世是朵花:是的,这种做法是比较常见,都是返回一个错误数据,不过这个语言稍微有点挑衅,倒是觉得挺有意思的。
网友六:分布式爬虫来一套
上世是朵花:关键是他也没有那么多资源可以利用,没必要,就当一个笑话看就行了。
网友七:哈哈哈,DDOS他
上世是朵花:对方既然敢这么说,想必也有一定的技术实力可以防备的。
网友八:我笑了
上世是朵花:我想大部分人都会笑吧,遇到被拒绝抓取的情况是挺多,不过来这么一句话的就感觉挺逗的,不免让人看了一愣。
看了这样一种情况,大家都是觉得挺逗的,是吧,通过这个案例,我们也不难得出这样的结论,在写爬虫的时候也是需要讲究一点规则的,比如要遵守robot.txt,还有是要控制访问频次什么的,比如对方的服务器比较弱,访问的过于频繁,势必对对方的网站造成影响,这样就不是很友好了,另外,作为网站方,如果发现有不遵守规则的爬虫过来抓数据,就给一个反馈就好了,不要反馈带有挑衅的语言,如果碰上一个气不过的人,可能会真盯上网站了,这样的事情,双方都有需要注意的地方,双方都是开发人员嘛,要正确处理这样的事情,保持友好共处。
以上所有图片均来之互联网
大家好,我是“上世是朵花”。如果你有什么好的看法或者观点可以在评论区展现你的才华,互动交流,如果想进一步了解我,那就关注我吧!