用Scala打造精悍爬虫(一)游记篇

分享一下前段学习Scala做的一个爬虫程序。 【关于爬虫】接触爬虫的时间并不长,发现python在这个领域有很大的份额。虽然也用过python,但是始终觉得动态语言做这种“严谨“工作还是不如Java,当然更没法和Scala比。总结一下爬虫的主要困难:痛点1:网断,大量爬取时,各种超时错是司空见惯,需要有良好的重试机制防止被打断。痛点2:验证码,一般大网站都有反爬机制,当...
摘要由CSDN通过智能技术生成

分享一下前段学习Scala做的一个爬虫程序。

 

【关于爬虫】

接触爬虫的时间并不长,发现python在这个领域有很大的份额。虽然也用过python,但是始终觉得动态语言做这种“严谨“工作还是不如Java,当然更没法和Scala比。

总结一下爬虫的主要困难:

痛点1:网断,大量爬取时,各种超时错是司空见惯,需要有良好的重试机制防止被打断。

痛点2:验证码,一般大网站都有反爬机制,当一定时间访问过多,就会跳转到验证码页面(携程就有)甚至禁止访问。另外,做模拟登陆的时候这个更是是绕不开的坎,真正的爬虫噩梦。详见: 知乎上一篇《为什么有些验证码看起来很容易但是没人做自动识别的?》  黄凯迪的文章。

痛点3:速度瓶颈,一般爬取数据都是百万级甚至更多,为了获得好的速度,多线程是必不可少的,单机不能满足需求就要分布式。但是这个又会增加上面两个问题的解决难度。

 

【关于反爬虫】

为什么聊这个?当然是知己知彼百战不殆。

网上看到一篇,还正好是携程出的,名字挺牛气。《关于反爬虫,看这一篇就够了》

 

【项目简述】

本篇程序用Scala+Jsoup 实现一个携程游记的爬虫,单机角度解决上面的问题。

先简要分析下携程游记,http://you.ctrip.com/travels/,作为国内数一数二的旅游类平台,携程主要通过收购小网站的方式壮大其游记规模,已经到了巨无霸级别,这次主要爬取游记目录规模 100万篇左右。由于数量过多,按照携程自己做的标签分类进行过滤,“精华”,“美图”,“典藏”,“实用”四类作为抓取对象。

 

【那些包?】

全部是标准库

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值