大数据和云计算技术总结

本文总结了大数据的收集和存储,包括HDFS、GFS、TFS等分布式文件系统,以及Redis等分布式缓存系统;介绍了云计算的核心技术,如虚拟化、服务化,并提及了公共云提供商如Amazon S3、微软Azure、阿里云等;同时提到了云时代的部署工具如OpenStack、Mesos和配置管理系统Chef,以及容器化技术的应用。
摘要由CSDN通过智能技术生成
<一>数据收集 

 外部数据收集

    数据源:PC端数据,App移动端数据

  Apache Nutch 主要组件有Crawler,Indexer以及Searcher.爬虫,索引以及查询.利用Lucene技术进行索引,
  Heritrix 更专注于网络信息的下载
  Solr:Solr 是一个基于Lucene的Java搜索引擎服务器

 内部收集收集  

    数据源:Web日志是由Web服务器产生,生产环境的服务器可能是Apache Nginx Tomcat IIS等.消息收集有两种模式:推送模式和拉取模式

    推送模式:实时性高,系统配置的容量需要超过峰值
    拉取模式:主动权在系统,可以缓冲高峰数据
  <1>Apache Flume 是一个分布式 可靠以及高可用性的海量数据收集系统.采用推送以及拉取这两种采集模式.是cloudera开源的日志系统
  <2>Logstash 是一款轻量级的日志搜集处理框架,
  <3>Scribe 是Facebook开源的实时分布式数据收集系统.采用推送模式.
  <4>Apache Chukwa 是Apache/Yahoo 监控
<二>数据存储
  持久化存储:
将数据永久的记录在磁盘上

应用级的分布式文件存储服务:

HDFS 

GFS 

TFS : Taobao File System,

HayStack Fackbook用于存储照片的系统

  数据库存储系统:
  HBase 列式存储 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值