大数据和云计算技术总结

原创 2016年08月29日 09:02:31
<一>数据收集 

 外部数据收集

    数据源:PC端数据,App移动端数据

  Apache Nutch 主要组件有Crawler,Indexer以及Searcher.爬虫,索引以及查询.利用Lucene技术进行索引,
  Heritrix 更专注于网络信息的下载
  Solr:Solr 是一个基于Lucene的Java搜索引擎服务器

 内部收集收集  

    数据源:Web日志是由Web服务器产生,生产环境的服务器可能是Apache Nginx Tomcat IIS等.消息收集有两种模式:推送模式和拉取模式

    推送模式:实时性高,系统配置的容量需要超过峰值
    拉取模式:主动权在系统,可以缓冲高峰数据
  <1>Apache Flume 是一个分布式 可靠以及高可用性的海量数据收集系统.采用推送以及拉取这两种采集模式.是cloudera开源的日志系统
  <2>Logstash 是一款轻量级的日志搜集处理框架,
  <3>Scribe 是Facebook开源的实时分布式数据收集系统.采用推送模式.
  <4>Apache Chukwa 是Apache/Yahoo 监控
<二>数据存储
  持久化存储:
将数据永久的记录在磁盘上

应用级的分布式文件存储服务:

HDFS 

GFS 

TFS : Taobao File System,

HayStack Fackbook用于存储照片的系统

  数据库存储系统:
  HBase 列式存储 
  MongoDB 文档型存储
  Cassandra: 是一套开源分布式NoSQL数据库系统。它最初由Facebook
  非持久化存储: 采用Hash的Key-Value存储,适合需要用到缓存Cache的场景

  分布式缓存系统:

Redis: 远程字典服务器Remote Dictionary Server,支持两种持久化方式,RDB镜像以及AOF日志.

  Berkeley:
  Memcached: 分布式内存对象缓存系统
开源分布式内存文件系统:Alluxio
<三>数据分析与数据挖掘及机器学习
  数据分析方式
    离线处理
  离线批量处理:
  MapReduce
  Apache Spark
  Apache Flink
  类SQL查询,查询引擎:
  Apache Hive 
  Impala Impala 是Dremel在Hadoop上的复制品,它由Cloudera开发
  Apache  Pig  : Google的Sawzall,Yahoo的Pig 和微软的Dryad
  Spark SQL
  Apache Kylin 是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区
  搜索引擎: 查找数据
  全批量+消息机制:消息传递方式:点对点以及发布订阅模式 消息服务机制:JMS<Java Message Service>:ActiveMQ
  Kafka kafaka消息机制  LinkedIn的
    在线处理
   Apache Strom: Twitter公司开源的
  Apache Spark Streaming:微批量
  数据挖掘与机器学习
  Apache Spark MLi
  Apache Mahout
  TensorFlow
  DMTK
  Torch
<四>分布式协同与管理
  集群资源管理
   Apache Spark自带的集群管理Standlone,如果并发的跑任务,就需要一个资源调度系统,资源调度要依托于第三方系统,比如YARN或Mesos等 
    YARN : YARN同时支持内存和CPU两种资源的调度,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,

    Mesos: 协同器独立出来设计成通用的,可伸缩的协同系统

 集群的一致性管理

Chubby: Google提出中心化的组件Chubby—粗粒度锁服务,通过锁原语为其他系统实现更高级的服务
Apache Zookeeper: Yahoo!借鉴Chubby的设计思想开发了Zookeeper,并将其开源.提供生态系统的协同实现,paxos算法是Zookeeper的核心
FourInOne:消息中枢模式
  管理与配置

Apache Ambari: 是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群

OpenStack Sahara:  在OpenStack上构建大数据服务

 Cloudera Hue: 是一个基于WEB的监控和管理系统

<五>信息检索与数据可视化
信息检索
    Apache Lucene是一个全文检索引擎程序库.
    Elasticsearch

    Solr

数据可视化

R language

  D3.js
  OpenRefine
  Tableau Public
  Datameer 商业软件
<六>大数据相关技术

   Apache Sqoop: 提供了关系型数据库和HDFS之间的相互转换。

  Apache Avro: 是RPC项目,类似Google的protobuf和Facebook的thrift 

注释:
 1.  hadoop有Apache版本,CDH版本<Cloudera>,以及HDH版本. Apache JMeter是Apache组织开发的基于Java的压力测试工具
 2.本地文件系统:本地文件系统如ext3,reiserfs等(它们管理本地的磁盘存储资源、提供文件到存储位置的映射
  分布式文件系统,网络文件系统:NFS(Network File System)即网络文件系统
  系统级别文件系统和应用级别文件系统:
3.Google_三大论文中文版(Bigtable、 GFS、 Google MapReduce)新技术——Caffeine、Pregel、Dremel
Caffeine 主要为Google网络搜索引擎提供支持
Pregel 主要绘制大量网上信息之间关系的“图形数据库”,解决网页链接分析、社交数据挖掘等实际应用中涉及的大规模分布式图计算问题。
Dremel 可以在极快的速度处理网络规模的海量数据
4.分布式图计算框架: Spark GraphX
5.Tachyon正式更名为Alluxio,查询引擎

<七> 云技术

云技术 Cloud technology:云硬件、云平台、云服务
   云计算:是分布式技术+虚拟化技术+服务化技术
  分布式技术:
  虚拟化技术:资源虚拟化,同意分配监测资源,向资源池添加资源,有专门的工具<>
  服务化技术: 
    SAAS 软件即服务
    PaaS 平台即服务
    IaaS 基础设施即服务

  云系统

      公共云
      Amzaon S3. 亚马逊简单储存服务(Amazon S3)
      微软Azure、
      Google云
      阿里云

腾讯云

华为云
      私有云创建工具
      Openstack OpenStack理解为一个提供私有化部署的AWS.
      Nova计算服务、
      Keysyone认证服务、
      Glance镜像服务、
      Swift对象存储和
      Horizon组件。
      Mesosphere
  云时代部署:
配置管理系统:chef
容器化技术:Containerization容器使应用程序的跨平台可移植性比以往任何时候都更容易,它解决了开发环境与生产环境差异的老问题.发布软件
镜像.容器
链接 数据卷

1.分布式系统与计算机网络的主要区别不在它们的物理结构上,而是在高层软件上。分布式系统是一个建立在网络之上的软件系统。这种软件保证了系统高度的一致性与透明性。分布式系统的用户不必关心网络环境中资源的分布情况,以及联网计算机的差异,用户的作业管理与文件管理过程对用户是透明的
2.云技术,私有云OpenStack Swift,容器化技术Docker

3.之前的技术  ETL:Kettle,EDW:企业数据仓库 .BI:商业智能

4. 企业:    国外:Google.Facebook.twitter.Amazon.ebay.Microsoft .IBM.Cloudera

国内:阿里巴巴,腾讯,百度,美团,华为,网易.新浪

参考:
大数据架构商业之路:从业务需求到技术方案 http://yuedu.163.com/source/19a1c92b746a4cefbafc200151cbc3d3_4
  
 

相关文章推荐

大数据-什么是云计算技术,云技术用什么语言开发

云计算技术: 这里只是列出我所知道的,希望大家对云计算技术有所了解: 一首先让大家明白什么是云端,所谓云端需要两层理解 (1)服务不在本地,这一层可以理解为服务器 (2)它和普通的服务器是不一样的,...

SAP_HANA-大数据时代的内存计算技术

  • 2016年02月22日 08:55
  • 10.96MB
  • 下载

【大数据与云计算开发技术】Hadoop开发中遇到的常见错误总结

1.org.apache.hadoop.security.AccessControlException: Permission denied: user=xxj hdfs-site.xml文件中加...
  • ourpush
  • ourpush
  • 2016年08月27日 22:37
  • 457

2017 CCTC中国云计算技术大会

深圳睿云智合CTO徐年刚分享了主题为《容器化引领IT新常态》的演讲,简单介绍了IT发展的新常态,十年软件产品交付变革,组织结构和协作方式转型,Bimodal正在成为传统企业适应IT新常态而采用的治理模...

CTCC2016中国云计算技术大会参会感想

上个周末有幸参加了中国云计算技术大会,感谢CSDN组织这场规模和层次都很高的技术盛会,更感谢CSDN提供的博客专家赠票。在回南京的高铁上趁热先把参会感想写了,过几天再给公司的小伙伴分享。参加这次大会最...
  • offbye
  • offbye
  • 2016年05月16日 10:03
  • 3135

旋转装置和机器状态监测——从本地监测到基于云计算技术

状态监测(CM)不再局限于高技能、有经验的工程师。随着基于云的CM系统的出现,用户可以通过云与专家共享数据,从而改进故障诊断,缩短反应时间,减少机器停机时间。...
  • saaspad
  • saaspad
  • 2017年05月05日 11:04
  • 265

谷歌拥抱Docker 最火的云计算技术

网易科技讯 6月10日消息,据国外媒体报道,谷歌对当今最热门的云计算技术Docker给予了相当大支持。在该公司看来,Docker是一个足以改变人们创建软件方式的东西,它能让任何程序开发人员更轻松地、即...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大数据和云计算技术总结
举报原因:
原因补充:

(最多只允许输入30个字)