不是不能弄,爬虫说白了就是发送http请求,这是所有语言都必备的基础功能,但确实是有效率之分。我不是说爬虫效率,而是说开发效率。如果你本职工作就是干爬虫的,随便就是几百台机子一起爬,那显然不太可能用python去搞,更不可能问这问题。提这问题,说明是新手,对新手而言,python开发简单的爬虫,效率就是最高的。
http请求基本是要发送header的,在python里是字典的形式,在java叫hashmap。python构造一个字典直接手动打出来,我甚至直接在chrome浏览器审查元素复制过来处理一下就能用了;而hashmap呢?一行行put,烦躁。java没有对http封装,当然这个你可以自己封装,也可以用那什么okhttp(反正我没用过),但显然怎样都不如我requests.get(url)来的快,而且避不开上面说的给hashmap传值繁琐。
在java遍历hashmap也是很操蛋的一件事,我每次都要到stackoverflow去查,因为老是记不住那什么entryset。在python那简直就不是事儿。
还要throws各种IOException,JSONException。。。。。。一段段try、catch把我的代码割裂的很难看。
最后就是那system.out.print……,每次打这玩意儿我都很头疼,你他娘的不能短点?
说这么多不是想贬一捧一,而是就事论事。事实上我现在的工作已经转向安卓开发,接触的都是java,感觉java比python高大上多了,python用起来就有种粗糙、草根的感觉(事实上,在python里写代码犯的低级错误估计比java多10倍以上)。是的,python就是草根,即便很多培训班拿它来碰瓷人工智能,它本质还是草根的紧。但草根的就是大众的,它简单,用起来舒心,所以如果自娱自乐搞爬虫,还是用Python吧