Hadoop
GaryBigPig
这个作者很懒,什么都没留下…
展开
-
大数据学习笔记:大数据技术框架和Hadoop生态系统
大数据技术框架Hadoop生态系统Hadoop是目前得到企业界验证的大数据框架,包括以下特点:源代码开源社区活跃、参与者众多涉及分布式存储和计算的方方面面Flume(非结构化数据收集)Cloudera开源的日志收集系统,用于非结构化数据收集。具有以下特点:分布式高可靠性高容错性易于定制和扩展Sqoop(结构化数据收集)Sqoop是SQL to Hadoop的...原创 2019-01-04 14:48:39 · 1522 阅读 · 0 评论 -
Hadoop学习笔记:分布式数据收集系统Flume和Sqoop
背景Hadoop提供了一个中央化的存储系统,有利于进行集中式的数据分析与数据共享。Hadoop对存储格式没有要求,包括用户访问日志、产品信息和网页数据等。但是,数据分散在各个离散的设备上或保存在传统的存储设备和系统中,我们需要将数据存入Hadoop。常见数据来源包括网页信息、用户操作日志等非结构化数据和传统关系型数据库(像MySQL、Oracled等)中的结构化数据,例如商品信息、用户信息等。如...原创 2019-01-05 17:29:09 · 820 阅读 · 0 评论 -
Hadoop学习笔记: 分布式数据库 HBase
HBase概述HBase是一个构建在HDFS上的分布式列存储系统,是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储。HBase是Google Bigtable的开源实现,从逻辑上讲,HBase将数据按照表、行和列进行存储,它是一个分布式的、稀疏的、持久化存储的多维度排序表。Hbase会把数据写到HDFS文件系统中。HBase具有以下特点:1)良好的扩展性;2)读和写...原创 2019-01-11 00:18:18 · 2202 阅读 · 0 评论 -
Hadoop学习笔记: 分布式消息队列 Kafka
背景这种结构耦合性太高,后端一旦发生变化,前端就要改动。使用中间件进行解耦,提高扩展性,各种服务都把生成的数据或变化写到中间件,后端服务器根据需要获取数据或变化,同时当生产者生产的数据大于消费者消费的数据时提供了缓存机制。消息队列能够使关键组件顶住突发的访问压⼒力,而不会因为突发的超负荷的请求⽽而完全崩溃。Kafka是LinkedIn开源的分布式发布-订阅消息系统,它是一种数据管道和消息队列...原创 2019-01-06 00:06:49 · 2138 阅读 · 1 评论 -
Hadoop学习笔记:一致性服务系统Zookeeper
背景原创 2019-01-06 16:52:40 · 621 阅读 · 7 评论 -
Hadoop学习笔记:分布式计算引擎MapReduce
MapReduce简介MapReduce源自于Google发表于2004年12月的MapReduce论文,Hadoop MapReduce是Google MapReduce克隆版。MapReduce源于函数式编程,包括Map和Reduce两个算子,它是一个通用的计算引擎,所以易于编程,可以实现任意的算法,表达能力很强,只是效率有区别。MapReduce是一个分布式应用框架,解决数据导入读取,...原创 2019-01-11 20:13:34 · 1920 阅读 · 0 评论 -
Hadoop学习笔记:分布式文件系统HDFS
背景HDFS(Hadoop Distributed File System)源自于Google发表于2003年10月的GFS论文,HDFS是GFS克隆版。它是一个易于扩展的分布式文件系统,可以运行在大量普通廉价机器上,它提供容错机制,为大量用户提供性能不错的文件存取服务。它具有以下优点:高容错性:数据自动保存多个副本, 副本丢失后,自动恢复适合批处理:移动计算而非数据,数据位置暴露给计算...原创 2019-01-08 15:06:24 · 475 阅读 · 0 评论 -
Hadoop学习笔记:数据分析引擎Hive
概述Hive是一个构建在Hadoop之上的数据仓库,和传统的数据仓库一样主要用来访问和管理数据,提供了类SQL查询语言;和传统数据仓库不一样的是可以处理超大规模的数据,可扩展性和容错性非常强。Hive是由FaceBook开源的分布式数据分析引擎,它把SQL语句转化成MapReduce作业提交到Hadoop上运行并返回结果。Hive可以做日志分析(包括统计网站一个时间段内的pv、uv),海量结...原创 2019-01-16 01:00:55 · 7893 阅读 · 0 评论