爬虫 第三篇 (语言选择python还是java)

原创 2015年11月17日 22:57:42

爬虫目前主要开发语言为java、python、c++
有些公司也用go语言(杭州某互联网金融公司)

对于一般的信息采集需要,各种语言差别不大。

  1. c、c++
    搜索引擎无一例外使用C\C++ 开发爬虫,猜想搜索引擎爬虫采集的网站数量巨大,对页面的解析要求不高,部分支持javascript

  2. python
    网络功能强大,模拟登陆、解析javascript,短处是网页解析
    python写起程序来真的很便捷,著名的python爬虫有scrapy等

  3. java
    java有很多解析器,对网页的解析支持很好,缺点是网络部分
    java开源爬虫非常多,著名的如 nutch 国内有webmagic
    java优秀的解析器有htmlparser、jsoup

对于一般性的需求无论java还是python都可以胜任。

如需要模拟登陆、对抗防采集选择python更方便些,如果需要处理复杂的网页,解析网页内容生成结构化数据或者对网页内容精细的解析则可以选择java。

爬虫交流群:177655321

相关文章推荐

关于java爬虫与python爬虫

前言很多人说学习数据挖掘,先从爬虫入手。接触了大大小小的项目后,发现数据的获取是数据建模前的一项非常重要的活儿。在此,我需要先总结一些爬虫的流程,分别有python版的以及java版的。url请求ja...

网络爬虫Java还是Python还是c++?

对这个问题刚才上网查询了下,总结如下! 爬虫目前主要开发语言为java、Python、c++  对于一般的信息采集需要,各种语言差别不大。 c、c++  搜索引擎无一例外使用C\C++ 开发爬虫,猜想...

最全Python爬虫总结

(1)普通的内容爬取 (2)保存爬取的图片/视频和文件和网页 (3)普通模拟登录 (4)处理验证码登录 (5)爬取js网站 (6)全网爬虫 (7)某个网站的站内所有目录爬虫 (8)多线程 (9)爬虫...

Java调用Python并传递参数(爬虫8)

前因最近确实学习了不少的东西。 在两方面的感受最深刻: 一款APP的开发,从前到后的流程原来是这样啊。 每门语言都有它的强大之处,不是它能不能实现,而是你想不想实现。 联调方案爬虫这边已...

基于Jsoup实现的简单爬虫

Jsoup 概念 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出...

爬虫项目(一)爬虫+jsoup轻松爬知乎

爬虫+jsoup轻松爬知乎爬知乎

使用Jsoup解析和操作HTML

jsoup 简介 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法...

开源爬虫框架各有什么优缺点?

作者:老夏     开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,...

Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站

Python分布式爬虫打造搜索引擎 一基础知识学习 爬取策略的深度优先和广度优先 爬虫网址去重策略 Python字符串编码问题解决 二伯乐在线爬取所有文章 初始化文件目录 scrapy项目初始化介绍 ...

Python爬虫之三种网页抓取方法性能比较

下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块。1. 正则表达式  如果你对正则表达式还不熟悉,或是需要一些提示时...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:爬虫 第三篇 (语言选择python还是java)
举报原因:
原因补充:

(最多只允许输入30个字)