- 博客(2)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 反爬虫策略总结
今日终于有点时间了,总结一下网络爬虫领域比较常见的反爬虫策略,希望在我们抓取数据过程中遇到问题时,提供解决方法。话不多说,开讲:1、最为经典的反爬虫策略当属“验证码”了。因为验证码是图片,用户登录时只需输入一次便可登录成功,而我们程序抓取数据过程中,需要不断的登录,比如我们需要抓取1000个用户的个人信息,则需要填1000次验证码,而手动输入验证码是不现实的,所以验证码的出现曾经难倒了很多网络
2017-06-29 21:10:33 13037 2
原创 异常问题解决方案(SSLProtocolException)
BUG描述: 1、代码在本地开发环境正常,但上传到了服务器端后,启动tomcat就报错; 2、使用httpclient抓取https数据,不加代理没问题,加代理之后就报错;解决方案: 1、在服务器端保证jdk版本是1.6 2、如果是Tomcat程序:在catalina.sh加上JAVA_OPTS="$JAVA_OPTS -Djsse.enab
2017-06-29 20:12:25 8205
Redis持久化的dump.rdb是如何生成的?
2018-12-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人