我与汽车之家的三生三世

最新推荐文章于 2021-10-16 23:30:00 发布

大数据运维

最新推荐文章于 2021-10-16 23:30:00 发布

阅读量2.7k

点赞数 1

分类专栏： java 机器学习爬虫爬虫相关文章标签： java 开源框架 python 爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/awdac/article/details/74936502

版权

java 同时被 3 个专栏收录

39 篇文章 1 订阅

订阅专栏

16 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

说起爬虫，目前存在许多流行的爬虫框架。其中最著名的莫过于Python语言方面的Scrapy，Java语言方面的Webcollector。它们都是开源的爬虫工具，根据不同的使用场景、业务特点、开发人员的语言偏好，可以选择不同功能的开源框架。当然老司机，也可能自己开发一种爬虫功能框架，毕竟自己编写的才能够更好的配置、控制、使用爬虫，完成爬虫业务的需求。

第一生

初进入爬虫坑洞，感觉爬虫很难。刚开始，选择的是使用Jsoup＋Java基本爬虫任务。当然是小量的数据，主要是做个人的研究学习数据。

刚开始，汽车之家没有复杂的反扒虫策略，所以非常顺利的爬取到了需要的数据。这时候，感觉不过如此 _^_。

后来想要更新一下数据，发现以前的代码不能使用了，瞬间傻呆了。逐渐排除各种干扰因素，加上使用Chrome开发者工具不断的研究发现，汽车之家变聪明了。才不到一个月的时候，它们网站内部的一些板块，采用了高级的发爬虫功能措施。

这一生，Game Over…

第二生

针对汽车之家的反爬虫措施结合百度的内容，我发现使用Phantomjs+JS+Java调用的方式，可以获取到汽车之家相关模块的内容。

使用Phantomjs无界面模拟浏览器可以运行JS，这样就可以跳过汽车之家设置的各种坑，还可以使用JS获取被隐藏掉的文字内容。这样，又可以爬虫到想要的数据啦 _^_，而且感觉高大上了不少。

但是，偶然的机会发现，汽车之家好像又出了一套新的发爬虫规则，这就是IP访问限制。这样就不能自由的爬虫了，需要找到新的解决方案。

第二生，就这样结束了…

第三生

如果同一个IP地址大量的访问汽车之家网站，就会存在以下情况
1. 有一些访问会出现Timeout的情况；
2. 返回码为429，也就是限制访问的请求数。

这时候，如果想要继续获取汽车之家的数据，就要从IP代理的角度，或其它措施来处理了。这个时候，一般是需要破费的。

刚开始，使用爬取免费的IP代理，比如西刺IP、IP181、快代理等代理网站，但是时间一长，免费代理IP，基本上就废掉了。这时候，还是需要使用付费的代理IP。一方面，不需要自己去考虑代理问题了，有服务商提供维护工作；另一方面，避免出现各种被攻击事件发生，相当于添加了一个隔离层。

总结

通过爬虫数据，总结如下：
1. 爬虫数据是一个时间输出的过程，大量的爬虫时间消耗来获取数据；
2. 大规模爬虫，是需要破费的；
3. 数据越来越成为一种资产的表现形式；
4. 网站在爬虫与反爬虫的对抗中不断的升级，防御网络、识别黑户模型不断完善。

大数据运维

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
我与汽车之家的三生三世

说起爬虫，目前存在许多流行的爬虫框架。其中最著名的莫过于Python语言方面的Scrapy，Java语言方面的Webcollector。它们都是开源的爬虫工具，根据不同的使用场景、业务特点、开发人员的语言偏好，可以选择不同功能的开源框架。当然老司机，也可能自己开发一种爬虫功能框架，毕竟自己编写的才能够更好的配置、控制、使用爬虫，完成爬虫业务的需求。第一生初进入爬虫坑洞，感觉爬虫很难。刚开始，选择的是
复制链接

扫一扫

专栏目录

大数据运维 CSDN认证博客专家 CSDN认证企业博客

码龄15年

62: 原创

8万+: 周排名

154万+: 总排名

20万+: 访问

: 等级

2619: 积分

25: 粉丝

49: 获赞

26: 评论

96: 收藏

私信

关注

热门文章

分类专栏

python 1篇
hadoop生态组件安装 8篇
爬虫相关 8篇
java 39篇
C
安装软件 10篇
深度学习 5篇
机器学习 8篇
爬虫 16篇
数据分析 6篇
Spark 5篇
加密 1篇
算法 2篇
备忘 7篇
NLP 1篇
调度系统 3篇
大数据架构 18篇
Hive 6篇
读书笔记 3篇
scala 2篇
生活 1篇

最新评论

Chromeheadless安装与使用
大数据运维: curl https://intoli.com/install-google-chrome.sh | bash
Chromeheadless安装与使用
沧海寄馀生: 后来找到的Chrome安装的一个脚本，使用这个脚本能够不断地安装缺少的依赖包，从而能够安航成功请问这个脚本是什么呢?
Canal上手指南：mysql到kafka
stevensam_lin: 这是yaml格式的要求，key和value之间由冒号还有空格组成。
EasyPR-Java新能源车牌识别
qq_34685803: 我想要一套源码
调度工具技术选型与开发参考
代立冬: 大火的Apache DolphinScheduler居然不在列

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。