关闭

爬虫 第三篇 (语言选择python还是java)

标签: 爬虫python
8154人阅读 评论(2) 收藏 举报
分类:

爬虫目前主要开发语言为java、python、c++
有些公司也用go语言(杭州某互联网金融公司)

对于一般的信息采集需要,各种语言差别不大。

  1. c、c++
    搜索引擎无一例外使用C\C++ 开发爬虫,猜想搜索引擎爬虫采集的网站数量巨大,对页面的解析要求不高,部分支持javascript

  2. python
    网络功能强大,模拟登陆、解析javascript,短处是网页解析
    python写起程序来真的很便捷,著名的python爬虫有scrapy等

  3. java
    java有很多解析器,对网页的解析支持很好,缺点是网络部分
    java开源爬虫非常多,著名的如 nutch 国内有webmagic
    java优秀的解析器有htmlparser、jsoup

对于一般性的需求无论java还是python都可以胜任。

如需要模拟登陆、对抗防采集选择python更方便些,如果需要处理复杂的网页,解析网页内容生成结构化数据或者对网页内容精细的解析则可以选择java。

爬虫交流群:177655321

4
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:22909次
    • 积分:539
    • 等级:
    • 排名:千里之外
    • 原创:30篇
    • 转载:3篇
    • 译文:1篇
    • 评论:2条
    文章分类
    最新评论