分享一下前段学习Scala做的一个爬虫程序。
【关于爬虫】
接触爬虫的时间并不长,发现python在这个领域有很大的份额。虽然也用过python,但是始终觉得动态语言做这种“严谨“工作还是不如Java,当然更没法和Scala比。
总结一下爬虫的主要困难:
痛点1:网断,大量爬取时,各种超时错是司空见惯,需要有良好的重试机制防止被打断。
痛点2:验证码,一般大网站都有反爬机制,当一定时间访问过多,就会跳转到验证码页面(携程就有)甚至禁止访问。另外,做模拟登陆的时候这个更是是绕不开的坎,真正的爬虫噩梦。详见: 知乎上一篇《为什么有些验证码看起来很容易但是没人做自动识别的?》 黄凯迪的文章。
痛点3:速度瓶颈,一般爬取数据都是百万级甚至更多,为了获得好的速度,多线程是必不可少的,单机不能满足需求就要分布式。但是这个又会增加上面两个问题的解决难度。
【关于反爬虫】
为什么聊这个?当然是知己知彼百战不殆。
网上看到一篇,还正好是携程出的,名字挺牛气。《关于反爬虫,看这一篇就够了》
【项目简述】
本篇程序用Scala+Jsoup 实现一个携程游记的爬虫,单机角度解决上面的问题。
先简要分析下携程游记,http://you.ctrip.com/travels/,作为国内数一数二的旅游类平台,携程主要通过收购小网站的方式壮大其游记规模,已经到了巨无霸级别,这次主要爬取游记目录规模 100万篇左右。由于数量过多,按照携程自己做的标签分类进行过滤,“精华”,“美图”,“典藏”,“实用”四类作为抓取对象。
【那些包?】
全部是标准库