爬虫
张小虾
殷勤昨夜三更雨 又得浮生一日闲
展开
-
网站反爬虫分析
网站反爬虫主要手段限制单一ip的访问量 服务器端nginx统计ip的一段时间内的访问量(eg:一分钟),如果访问量大于阀值,该ip将被禁止访问服务。简单有效。可以通过代理ip解决该问题。User-Agent限制 在使用httpclient等工具访问网站时,如果没有设置user-Agent值,httpclient将会使用默认的user-Agent值。没啥用。限制账户的访问量 如果经常超过访原创 2017-09-15 14:52:00 · 1026 阅读 · 0 评论 -
Ubuntu 16.04和windows10下chromedriver的编译
Ubuntu 16.04和windows10下chromedriver的编译必须在64位系统下进行操作。下载过程需要翻墙。ubuntu 下的编译过程 官方文档 这个编译我是在国外的服务器上进行的,所以不存在无法访问google服务器的情况。编译环境 4核8g配置环境 depot_tools编译工具 git clone https://chromium.googlesource原创 2017-09-17 22:54:20 · 3053 阅读 · 0 评论 -
反-反爬虫
说明 在实际项目中,能用httpclient处理的网页,我们都不会选择selenium或者类似的方案。由于反爬的技术升级,没有处理js能力的httpclient显得力不从心。在使用selenium的过程中,遇到很多问题: phantomjs不需要图形化,它很省资源,但开发调试难度相对较高,而且具有致命缺点(它的运行特征太多) firefox不够稳。爬虫本来意外就多,谁不想稳一点。原创 2017-09-18 00:03:51 · 1133 阅读 · 0 评论 -
用Java实现网易云音乐爬虫(非selenium)
代码地址:https://git.oschina.net/bobozhangyx/java-crawler/tree/master/music163主要内容:使用httpclient(非模拟浏览器)使用网易云音乐api采集:评论和用户最近听歌的统计思路:用一首歌的id作为入口,得到下面的所有评论 –> 取出用户id 通过用户id取出该用户最近听的歌 –> 得到歌的id原创 2017-09-18 21:30:17 · 2671 阅读 · 0 评论