爬虫开源项目及其思想

https://github.com/JFanZhao/spider
https://github.com/canghaiyisu666/spider

使用java+httpclient+httpcleaner,多线程、分布式爬去电商网站商品信息,数据存储在hbase上,并使用solr对商品建立索引,使用redis队列存储一个共享的url仓库;使用zookeeper对爬虫节点生命周期进行监视等。

https://github.com/gsh199449/DistributeCrawler

基于Map/Reduce爬虫,可抽取各大新闻网站的新闻正文并进行分类和聚类
这是一个基于Hadoop的分布式爬虫,目前只支持抓取腾讯新闻中心的新闻内容。支持插件机制,可以通过实现Extractor接口自己编写插件已实现对于各种网站的抓取和内容提取。

https://github.com/decaywood/XueQiuSuperSpider
雪球网或者东方财富或者同花顺目前已经提供了很多种股票筛选方式,但是筛选方式是根据个人操作 风格来定义的,三个网站有限的筛选方式显然不能满足广大股民、程序员特别是数据分析控的要求, 基于此,本人设计了一个可以任意拓展,实现任意数据搜集与分析的爬虫程序,满足股友们的需要, 只要你能想到的数据搜集与分析策略它都能实现。(项目严重依赖JDK8新特性,偏重函数式编程思想,不熟悉的已备好教程以及例子: Java8 简明教程)


https://git.oschina.net/sixliu/spider
整个分布式基于springboot,zookeeper,redis,netty,mysql等基础开源框架实现。 1.springboot作为整个项目的管理容器, 2.zookeeper作为整个集群几点注册和发现, 3.redis用来作为集群缓存和工作空间实现, 由于redis支持rpush lpop队列操作,然后lpop,rpush 操作数据key,hset,hget操作实际存储数据来实现redis队列ack,数据实际处理完后再hdell数据 4.netty用来作为节点间通信, 5.mysql用存储持久化数据. 项目仅仅为一个可执行jar. 下载器:支持okhttp,phantomjs,chrome3种下载方式. 提供了登录,验证码识别接口, 实现了根据站点code切换代理Ip(基于redis实现的http代理管理队列) 解析: 支持普通cssQuery 抽取元素, 表格单条数据抽取,表格多条数据抽取,json抽取,正则抽取。 支持自定义解析结果。 抽取结果存储:支持数据库,http发送 ,文件等存储方式 
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值