Hadoop
Hadoop平台安装、开发、运行,以及读书笔记整理。
tterminator
let the code say
展开
-
Hadoop 研发之远程调试详细剖析--WordCount V2.0
前言之前学习Hadoop时,曾经错误的以为开发的Hadoop程序必须在运行的Hadoop集群上才能运行和调试,基于这个错误认识,花费了较多的时间在mac上搭建伪分布式Hadoop集群和IDE集成开发环境。之所花费了较多的时间是因为,是因为:需要自己编译Hadoop native lib。详细编译过程参见博文mac下hadoop 2.6.0编译native library ,资源下载参见链接mac原创 2016-08-20 17:25:01 · 4108 阅读 · 0 评论 -
mac下hadoop 2.6.0编译native library
一、为什么要编译native librarymac单机模式安装Hadoop后启动,报错:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable。 有兴趣的可以自己编译下,因为网上很多的native原创 2016-06-28 23:48:06 · 7498 阅读 · 6 评论 -
mac hbase程序启动警告:找不到hadoop native lib
一、问题描述在eclipse中开发完hbase程序,启动时有警告: WARN [main] util.NativeCodeLoader (NativeCodeLoader.java:(62)) - Unable to load native-hadoop library for your platform… using builtin-java classes where applicable.原创 2016-07-03 22:49:00 · 6469 阅读 · 0 评论 -
大数据处理的关键层次架构
图1、大数据处理的关键架构层以下是对上图中各架构层的说明一、数据存储层宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营。ACID是指数据库事务具有的四个特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。ACID中的一致性要求转载 2016-04-01 16:30:30 · 15422 阅读 · 0 评论 -
笔记:HDFS读取和写入数据流
一、client从hdfs读取数据流二、client写入hdfs数据流原创 2016-04-14 22:52:54 · 6452 阅读 · 0 评论 -
笔记:MapReduce作业调度运行对比
一、Hadoop运行MapReduce流程二、YARN运行MapReduce流程原创 2016-04-15 12:58:46 · 6607 阅读 · 0 评论 -
大数据工程师技能图谱
原文链接:http://toutiao.com/a6267290210372747522/一、大数据通用处理平台SparkFlinkHadoop二、分布式存储HDFS三、资源调度YarnMesos五、数据分析/数据仓库(SQL类)PigHivekylin转载 2016-03-31 13:39:22 · 4888 阅读 · 0 评论 -
spark读书笔记
一、Spark在某种程度上可以说是对Map/Reduce计算引擎的替换或补充,因为Spark在Map/Reduce并不擅长的迭代计算等方面有很大优势,此外,spark还是一个基于DAG任务规划的先进计算引擎。二、Map/Reduce计算引擎在计算的各个过程中产生的中间数据不能有效共享,而Spark通过引入RDD(Resilient Distributed DataSet)弹性分布式数据原创 2015-11-30 23:47:16 · 708 阅读 · 0 评论 -
SQL与NoSQL比较(整理)
一、SQL遵循ACID原则二、NoSQL遵循CAP原则:分布式系统只能满足此三项中的两项而不可能满足全部三项C:一致性(Consistency)(所有节点在同一时间具有相同的数据)A:可用性(Availability)(保证每个请求不管成功或者失败都有响应)P:分区容忍性(Partition tolerance)(系统中任意信息的丢失或失败不会影响系统的继续运作)原创 2015-11-30 22:12:50 · 1713 阅读 · 1 评论 -
hive和hbase比较(整理)
hive1、可以理解为一种SQL执行引擎,对SQL的支持最终转换为map/reduce任务2、不支持更新、删除操作,但可以插入3、任务不是实时执行,用时一般为数分钟到数小时4、本身可以不存储数据,只存储关于数据的元数据,偏重于逻辑结构,是一种数据仓库5、适合于静态大数据量的查询、分析、汇总,不适合联机实时数据处理6、操作一般以全表数据为基础,但也有分区等概念Hb原创 2015-11-30 21:58:54 · 2520 阅读 · 0 评论 -
storm读书笔记---storm运行流程
一、storm是一个用于实时流式计算的分布式计算引擎,弥补了Hadoop在实时计算方面的不足(Hadoop在本质上是一个批处理系统)。二、storm在实际应用场景中的位置一般如下:其中的编号1~5说明如下:1、Flume用于收集日志信息;2、结合数据传输功能可以把收集到得日志信息实时传输到kafka集群,或保存到Hadoop hdfs中保存。这里之所以选择kaf原创 2015-11-29 00:25:02 · 5358 阅读 · 0 评论 -
hadoop eclipse 程序调试
运行环境:Java version “1.7.0_80”++原创 2015-09-23 11:21:11 · 1871 阅读 · 0 评论 -
mac hadoop install & run application
本文参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.htmlJ2EE已越来越多的部署到云上,Hadoop作为云计算的代表,有很多思想可以借鉴到J2EE开发中,例如分布式调度等。本篇简要介绍mac下Hadoop的不同运行模式配置及相应模式下运行示例程序。原创 2015-09-15 17:25:51 · 1103 阅读 · 0 评论