Hadoop & Big Data
tterminator
let the code say
展开
-
storm读书笔记---storm运行流程
一、storm是一个用于实时流式计算的分布式计算引擎,弥补了Hadoop在实时计算方面的不足(Hadoop在本质上是一个批处理系统)。二、storm在实际应用场景中的位置一般如下:其中的编号1~5说明如下:1、Flume用于收集日志信息;2、结合数据传输功能可以把收集到得日志信息实时传输到kafka集群,或保存到Hadoop hdfs中保存。这里之所以选择kaf原创 2015-11-29 00:25:02 · 5353 阅读 · 0 评论 -
hbase KeyValue结构打印
一、表内容hbase(main):003:0> scan ‘tableCreateTest1’ ROW COLUMN+CELL row1 column=cf1:name, timestamp=1467639285495, value原创 2016-07-04 21:43:43 · 1121 阅读 · 0 评论 -
mac hbase程序启动警告:找不到hadoop native lib
一、问题描述在eclipse中开发完hbase程序,启动时有警告: WARN [main] util.NativeCodeLoader (NativeCodeLoader.java:(62)) - Unable to load native-hadoop library for your platform… using builtin-java classes where applicable.原创 2016-07-03 22:49:00 · 6467 阅读 · 0 评论 -
hbase 增删改查基本操作
一、hbase增删改查基本操作package hbasetest;import java.io.IOException;import java.io.InterruptedIOException;import java.util.HashSet;import java.util.Set;import org.apache.hadoop.conf.Configuration;import or原创 2016-07-04 22:50:37 · 1343 阅读 · 0 评论 -
Hive安装笔记
一、Hive安装http://www.cnblogs.com/likehua/p/3825479.htmlhttp://www.2cto.com/os/201410/342359.html二、启动Hive前初始化metadatahttp://stackoverflow.com/questions/35655306/hive-installation-issues-hive-metastore-dat原创 2016-07-09 17:49:00 · 389 阅读 · 0 评论 -
HBase单机/伪分布式安装/配置笔记
参考官网http://hbase.apache.org/book.html#quickstart一、单机模式安装在官网下载hbase解压到任一目录下修改hbase配置文件修改conf目录下hbase-env.sh:设置JAVA_HOME环境变量修改conf目录下hbase-site.xml:主要是设置属性hbase-rootdir,hbase-zookeeper.property.data原创 2016-07-09 15:19:31 · 963 阅读 · 0 评论 -
hadoop eclipse 程序调试
运行环境:Java version “1.7.0_80”++原创 2015-09-23 11:21:11 · 1869 阅读 · 0 评论 -
Hadoop 研发之远程调试详细剖析--WordCount V2.0
前言之前学习Hadoop时,曾经错误的以为开发的Hadoop程序必须在运行的Hadoop集群上才能运行和调试,基于这个错误认识,花费了较多的时间在mac上搭建伪分布式Hadoop集群和IDE集成开发环境。之所花费了较多的时间是因为,是因为:需要自己编译Hadoop native lib。详细编译过程参见博文mac下hadoop 2.6.0编译native library ,资源下载参见链接mac原创 2016-08-20 17:25:01 · 4104 阅读 · 0 评论 -
Hadoop mapreduce shuffle
这里仍以最简单的Word count为例:原创 2017-06-16 22:40:15 · 263 阅读 · 0 评论 -
mac下hadoop 2.6.0编译native library
一、为什么要编译native librarymac单机模式安装Hadoop后启动,报错:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable。 有兴趣的可以自己编译下,因为网上很多的native原创 2016-06-28 23:48:06 · 7496 阅读 · 6 评论 -
org.apache.hadoop.hbase.mapreduce.RowCounter源码
001/**002 *003 * Licensed to the Apache Software Foundation (ASF) under one004 * or more contributor license agreements. See the NOTICE file005 * distributed with this work for additional informat翻译 2016-07-11 17:22:56 · 3387 阅读 · 0 评论 -
SQL与NoSQL比较(整理)
一、SQL遵循ACID原则二、NoSQL遵循CAP原则:分布式系统只能满足此三项中的两项而不可能满足全部三项C:一致性(Consistency)(所有节点在同一时间具有相同的数据)A:可用性(Availability)(保证每个请求不管成功或者失败都有响应)P:分区容忍性(Partition tolerance)(系统中任意信息的丢失或失败不会影响系统的继续运作)原创 2015-11-30 22:12:50 · 1712 阅读 · 1 评论 -
hive和hbase比较(整理)
hive1、可以理解为一种SQL执行引擎,对SQL的支持最终转换为map/reduce任务2、不支持更新、删除操作,但可以插入3、任务不是实时执行,用时一般为数分钟到数小时4、本身可以不存储数据,只存储关于数据的元数据,偏重于逻辑结构,是一种数据仓库5、适合于静态大数据量的查询、分析、汇总,不适合联机实时数据处理6、操作一般以全表数据为基础,但也有分区等概念Hb原创 2015-11-30 21:58:54 · 2517 阅读 · 0 评论 -
大数据处理的关键层次架构
图1、大数据处理的关键架构层以下是对上图中各架构层的说明一、数据存储层宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营。ACID是指数据库事务具有的四个特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。ACID中的一致性要求转载 2016-04-01 16:30:30 · 15412 阅读 · 0 评论 -
大数据工程师技能图谱
原文链接:http://toutiao.com/a6267290210372747522/一、大数据通用处理平台SparkFlinkHadoop二、分布式存储HDFS三、资源调度YarnMesos五、数据分析/数据仓库(SQL类)PigHivekylin转载 2016-03-31 13:39:22 · 4880 阅读 · 0 评论 -
spark读书笔记
一、Spark在某种程度上可以说是对Map/Reduce计算引擎的替换或补充,因为Spark在Map/Reduce并不擅长的迭代计算等方面有很大优势,此外,spark还是一个基于DAG任务规划的先进计算引擎。二、Map/Reduce计算引擎在计算的各个过程中产生的中间数据不能有效共享,而Spark通过引入RDD(Resilient Distributed DataSet)弹性分布式数据原创 2015-11-30 23:47:16 · 707 阅读 · 0 评论 -
mac hadoop install & run application
本文参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.htmlJ2EE已越来越多的部署到云上,Hadoop作为云计算的代表,有很多思想可以借鉴到J2EE开发中,例如分布式调度等。本篇简要介绍mac下Hadoop的不同运行模式配置及相应模式下运行示例程序。原创 2015-09-15 17:25:51 · 1102 阅读 · 0 评论 -
笔记:MapReduce作业调度运行对比
一、Hadoop运行MapReduce流程二、YARN运行MapReduce流程原创 2016-04-15 12:58:46 · 6604 阅读 · 0 评论 -
笔记:HDFS读取和写入数据流
一、client从hdfs读取数据流二、client写入hdfs数据流原创 2016-04-14 22:52:54 · 6448 阅读 · 0 评论 -
Hive核心概念剖析及示例
一、Hive文件存储格式和记录格式Hive中的文件格式和记录格式Hive存储数据时底层使用的是Hadoop的HDFS文件系统,Hive数据存在的形式为HDFS文件。 我们可以使用Hive load命令和insert ··· directory···select···fromSQL分别把文件中的数据导入到Hive数据表中和把hive表中感兴趣的字段数据转储到指定的数据文件,那么在这些过原创 2017-06-24 22:05:34 · 968 阅读 · 0 评论