爬虫系类
Tike-l
这个作者很懒,什么都没留下…
展开
-
避免被ban
有些的网站实现一些特定的机制,以一些手段来避免被爬取,那么作为攻城狮的我们就需要和这些做斗争,,下面就要介绍一些技巧,来破解他们这些技术 攻城狮技巧一: 使用user agent池,轮流选择之一作为user agent 。池中包含常见的浏览器user agent (网上有很多的 亲) 攻城狮技巧二: 禁止cookies ,有些站点会使用cookies来发现爬虫的轨迹 攻城原创 2017-03-09 17:34:27 · 517 阅读 · 0 评论 -
blackhole 带你抓妹纸哦
本博文依旧是在Linux下的Ubuntu环境下运行的 作为菜鸟我建议是不要用正则来匹配你想要的内容了,还是乖乖的去使用beautifulsoup吧 作为使用Python这门语言,一个好的编译器是你成功的一半,开始的时候我是使用的是Python的默认环境IDLE d 但是后来,我是结合着pycharm来使用: 待续.......原创 2016-11-21 20:46:08 · 533 阅读 · 0 评论