那个爬虫框架好(简单对比)

  对于爬虫框架本身来说,都是很优秀的,说那个更好,不如说那个更适合公司的业务需求。比如javaweb项目中需要某些网站的金融系列新闻,得每天定时去抓取一些数据,你就可以考虑WebMagic框架,能够轻松的将爬虫代码逻辑模块化到项目中,毫无违和感。当然也可以是别的框架,只要合适就好(以上爬虫框架就不介绍了,真要说说,估计得长篇大论了.....可以查阅相关资料进行详细的了解)。

  这些开源的爬虫框架大都是把复杂的问题解决掉,然后封装,在之后就是我们用的很简单、方便,不必考虑那些URL去重、代理、线程池管理等等问题,当然建议看看源码多想想他们的设计思想以及实现逻辑

  我们在以前项目中用的爬虫框架是java语言的WebMagic和python语言的PySpider。普通java爬虫项目中都可以多多考虑WebMagic和WebCollector绝对够用(反正用啥都得考虑动态js抓取,图片验证码识别等等那些反爬虫机制,这一定是个持久战,哈哈),上手简单易扩展,注重业务开发就好。如果大型分布式、业务够复杂、需求点够多、数据够庞大下的估计用哪个框架也得进行二次扩展了。所以选那个框架不必那么纠结。

  另外搞爬虫不得不推荐python了,易学,语法简单,一个简单的爬虫程序可能半个小时就搞定了。虽然在调试上很费时间,但是当有一定经验了,很多问题就可以规避掉或者bug定位很快。当然也有痛点,但是这些痛点对于整个项目成本来说完全可以接受。

  

   

转载于:https://www.cnblogs.com/mottled/p/7994150.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值