大数据和云计算技术总结

原创 2016年08月29日 09:02:31
<一>数据收集 

 外部数据收集

    数据源:PC端数据,App移动端数据

  Apache Nutch 主要组件有Crawler,Indexer以及Searcher.爬虫,索引以及查询.利用Lucene技术进行索引,
  Heritrix 更专注于网络信息的下载
  Solr:Solr 是一个基于Lucene的Java搜索引擎服务器

 内部收集收集  

    数据源:Web日志是由Web服务器产生,生产环境的服务器可能是Apache Nginx Tomcat IIS等.消息收集有两种模式:推送模式和拉取模式

    推送模式:实时性高,系统配置的容量需要超过峰值
    拉取模式:主动权在系统,可以缓冲高峰数据
  <1>Apache Flume 是一个分布式 可靠以及高可用性的海量数据收集系统.采用推送以及拉取这两种采集模式.是cloudera开源的日志系统
  <2>Logstash 是一款轻量级的日志搜集处理框架,
  <3>Scribe 是Facebook开源的实时分布式数据收集系统.采用推送模式.
  <4>Apache Chukwa 是Apache/Yahoo 监控
<二>数据存储
  持久化存储:
将数据永久的记录在磁盘上

应用级的分布式文件存储服务:

HDFS 

GFS 

TFS : Taobao File System,

HayStack Fackbook用于存储照片的系统

  数据库存储系统:
  HBase 列式存储 
  MongoDB 文档型存储
  Cassandra: 是一套开源分布式NoSQL数据库系统。它最初由Facebook
  非持久化存储: 采用Hash的Key-Value存储,适合需要用到缓存Cache的场景

  分布式缓存系统:

Redis: 远程字典服务器Remote Dictionary Server,支持两种持久化方式,RDB镜像以及AOF日志.

  Berkeley:
  Memcached: 分布式内存对象缓存系统
开源分布式内存文件系统:Alluxio
<三>数据分析与数据挖掘及机器学习
  数据分析方式
    离线处理
  离线批量处理:
  MapReduce
  Apache Spark
  Apache Flink
  类SQL查询,查询引擎:
  Apache Hive 
  Impala Impala 是Dremel在Hadoop上的复制品,它由Cloudera开发
  Apache  Pig  : Google的Sawzall,Yahoo的Pig 和微软的Dryad
  Spark SQL
  Apache Kylin 是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区
  搜索引擎: 查找数据
  全批量+消息机制:消息传递方式:点对点以及发布订阅模式 消息服务机制:JMS<Java Message Service>:ActiveMQ
  Kafka kafaka消息机制  LinkedIn的
    在线处理
   Apache Strom: Twitter公司开源的
  Apache Spark Streaming:微批量
  数据挖掘与机器学习
  Apache Spark MLi
  Apache Mahout
  TensorFlow
  DMTK
  Torch
<四>分布式协同与管理
  集群资源管理
   Apache Spark自带的集群管理Standlone,如果并发的跑任务,就需要一个资源调度系统,资源调度要依托于第三方系统,比如YARN或Mesos等 
    YARN : YARN同时支持内存和CPU两种资源的调度,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,

    Mesos: 协同器独立出来设计成通用的,可伸缩的协同系统

 集群的一致性管理

Chubby: Google提出中心化的组件Chubby—粗粒度锁服务,通过锁原语为其他系统实现更高级的服务
Apache Zookeeper: Yahoo!借鉴Chubby的设计思想开发了Zookeeper,并将其开源.提供生态系统的协同实现,paxos算法是Zookeeper的核心
FourInOne:消息中枢模式
  管理与配置

Apache Ambari: 是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群

OpenStack Sahara:  在OpenStack上构建大数据服务

 Cloudera Hue: 是一个基于WEB的监控和管理系统

<五>信息检索与数据可视化
信息检索
    Apache Lucene是一个全文检索引擎程序库.
    Elasticsearch

    Solr

数据可视化

R language

  D3.js
  OpenRefine
  Tableau Public
  Datameer 商业软件
<六>大数据相关技术

   Apache Sqoop: 提供了关系型数据库和HDFS之间的相互转换。

  Apache Avro: 是RPC项目,类似Google的protobuf和Facebook的thrift 

注释:
 1.  hadoop有Apache版本,CDH版本<Cloudera>,以及HDH版本. Apache JMeter是Apache组织开发的基于Java的压力测试工具
 2.本地文件系统:本地文件系统如ext3,reiserfs等(它们管理本地的磁盘存储资源、提供文件到存储位置的映射
  分布式文件系统,网络文件系统:NFS(Network File System)即网络文件系统
  系统级别文件系统和应用级别文件系统:
3.Google_三大论文中文版(Bigtable、 GFS、 Google MapReduce)新技术——Caffeine、Pregel、Dremel
Caffeine 主要为Google网络搜索引擎提供支持
Pregel 主要绘制大量网上信息之间关系的“图形数据库”,解决网页链接分析、社交数据挖掘等实际应用中涉及的大规模分布式图计算问题。
Dremel 可以在极快的速度处理网络规模的海量数据
4.分布式图计算框架: Spark GraphX
5.Tachyon正式更名为Alluxio,查询引擎

<七> 云技术

云技术 Cloud technology:云硬件、云平台、云服务
   云计算:是分布式技术+虚拟化技术+服务化技术
  分布式技术:
  虚拟化技术:资源虚拟化,同意分配监测资源,向资源池添加资源,有专门的工具<>
  服务化技术: 
    SAAS 软件即服务
    PaaS 平台即服务
    IaaS 基础设施即服务

  云系统

      公共云
      Amzaon S3. 亚马逊简单储存服务(Amazon S3)
      微软Azure、
      Google云
      阿里云

腾讯云

华为云
      私有云创建工具
      Openstack OpenStack理解为一个提供私有化部署的AWS.
      Nova计算服务、
      Keysyone认证服务、
      Glance镜像服务、
      Swift对象存储和
      Horizon组件。
      Mesosphere
  云时代部署:
配置管理系统:chef
容器化技术:Containerization容器使应用程序的跨平台可移植性比以往任何时候都更容易,它解决了开发环境与生产环境差异的老问题.发布软件
镜像.容器
链接 数据卷

1.分布式系统与计算机网络的主要区别不在它们的物理结构上,而是在高层软件上。分布式系统是一个建立在网络之上的软件系统。这种软件保证了系统高度的一致性与透明性。分布式系统的用户不必关心网络环境中资源的分布情况,以及联网计算机的差异,用户的作业管理与文件管理过程对用户是透明的
2.云技术,私有云OpenStack Swift,容器化技术Docker

3.之前的技术  ETL:Kettle,EDW:企业数据仓库 .BI:商业智能

4. 企业:    国外:Google.Facebook.twitter.Amazon.ebay.Microsoft .IBM.Cloudera

国内:阿里巴巴,腾讯,百度,美团,华为,网易.新浪

参考:
大数据架构商业之路:从业务需求到技术方案 http://yuedu.163.com/source/19a1c92b746a4cefbafc200151cbc3d3_4
  
 

云计算,大数据,数据库,数据仓库之间是什么关系

有网友问云计算,大数据,数据库,数据仓库之间是什么关系,在这里我就我的理解简单解释一下: 首先简单的看一下云计算与大数据的概念. 1)云计算:云计算本质上是一种计算资源集中分布和充分共享的...
  • havedream_one
  • havedream_one
  • 2014年07月05日 15:43
  • 3580

虚拟化、大数据、云计算、物联网、移动互联网以及传统互联网之间的关系

网络将物联网、传统互联网和移动互联网的数据连接、汇聚在一起形成“大数据”,这些数据经过人类刻意的、针对特意用途的分析产生价值用于决策分析等,计算和分析的平台则是“云计算”,机器学习应该算是“大数据”的...
  • suipingsp
  • suipingsp
  • 2014年07月01日 16:50
  • 4494

大数据流式计算:关键技术及系统实例

转载自: 摘要:大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且...
  • u013524655
  • u013524655
  • 2014年11月13日 09:22
  • 2893

Hadoop大数据处理讲义-C2. Google核心云计算技术

  • 2015年09月02日 14:44
  • 2.76MB
  • 下载

大数据和云计算技术周报(第14期):NoSQL特辑

写在第14期特辑“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及。为了满足众多同学学习和工作的需要,后面社区根据情况逐渐推出专门的分类集锦,希望大家...
  • zNZQhb07Nr
  • zNZQhb07Nr
  • 2018年01月17日 00:00
  • 29

大数据和云计算技术周报(第8期):NoSQL特辑

写在第8期特辑“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及。为了满足众多同学学习和工作的需要,后面社区根据情况逐渐推出专门的分类集锦,希望大家喜...
  • zNZQhb07Nr
  • zNZQhb07Nr
  • 2017年12月27日 00:00
  • 143

大数据和云计算技术周报(第1期)

写在第1期周报 Q1:周报反响如何? A1:实话说,第0期超出了我们的预期,前后6个同学以订阅的名义打赏,完全出乎我们的意料。有编辑直言,人生第一次收到稿费。谢谢各位同学的支持!另外说一句,请继续...
  • zNZQhb07Nr
  • zNZQhb07Nr
  • 2017年11月27日 00:00
  • 154

#大数据和云计算技术#: "四有"社区介绍

#大数据和云计算技术#社区,是专业技术社区。由一群来自BAT,华为等大厂资深架构师,技术人员业余自发组建,目的是共同学习,一起进步。 社区“有文化”、“有分享”、“有美女”、“有红包”,谐称“四有”社...
  • zNZQhb07Nr
  • zNZQhb07Nr
  • 2017年12月19日 00:00
  • 167

大数据和云计算技术周报(第10期):NoSQL特辑

写在第10期特辑“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及。为了满足众多同学学习和工作的需要,后面社区根据情况逐渐推出专门的分类集锦,希望大家...
  • zNZQhb07Nr
  • zNZQhb07Nr
  • 2018年01月03日 00:00
  • 206

大数据和云计算技术周报(第2期)

写在第2期周报 Q1:老生常谈,上一期周报反响如何? A1:第0期/1期持续热度高涨,同学们纷纷用红包表达了真爱。编辑部薛总表示说“大家这么支持,都有专职搞好的冲动”。另外说一句,请继续坚持打赏和...
  • zNZQhb07Nr
  • zNZQhb07Nr
  • 2017年12月04日 00:00
  • 489
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大数据和云计算技术总结
举报原因:
原因补充:

(最多只允许输入30个字)