2016年06月_秉寒-CHO

原创 nginx ---->flume ----->kafka ----> storm -----> hdfs

大数据架构简单流程图nginx ---->flume ----->kafka ----> storm -----> hdfs(mysql)------>hbse(hive)---->spark(MR)

2016-06-30 11:15:42 2514

原创使用java MapReduce job 批量导入大额数据到Hbase

使用java MapReduce job 批量导入大额数据到Hbase

2016-06-29 09:19:25 427

原创 nginx HA and 负载均衡示意图

service keepalived start service tengine start

2016-06-27 22:50:52 435

原创一张图玩转大数据架构流程

2016-06-27 12:03:19 1918

原创 nginx 错误, flume 集锦，太多bugs netstat -ntpl

[root@bigdatahadoop sbin]# ./nginx -t -c /usr/tengine-2.1.0/conf/nginx.confnginx: [emerg] "upstream" directive is not allowed here in /usr/tengine-2.1.0/conf/nginx.conf:47configuration file /usr/t

2016-06-26 13:28:19 2241

原创透过面试题，洞察Hbase 核心知识点

第二部分：HBase核心知识点(对于Hbase实现核心LSM，会在下篇文章介绍）11. LSM含义是？AA 日志结构合并树（Log-Structured Merge Tree）B 二叉树C 平衡二叉树D 长平衡二叉树12. 下面对LSM结构描述正确的是？ A、CA 顺序存储B 直接写硬盘C 需要将数据Flush到磁盘

2016-06-23 15:27:32 1662

原创大数据，云计算核心体系

第一阶段：linux+搜索+hadoop体系Linux大纲这章是基础课程，帮大家进入大数据领域打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,kvm,openstack等众多课程。因为企业中无一例外的是使用Linux来搭建或部署项目。1) Linux的介绍，Linux的安装：VMware Workstation虚拟软件

2016-06-22 13:28:58 6084

原创 Story share IBM 一同事职业发展履历

1. Your job scope?--- My Job role is P4 client architect. The responsibility of this role is listed as below:1). Support sales team to win new deals on P4 by clarifying clients' requirements, de

2016-06-22 10:17:03 1116

原创 hbase的调优

BigInteger lowestKey = new BigInteger(startKey, 16);BigInteger highestKey = new BigInteger(endKey, 16); BigInteger range = highestKey.subtract(lowestKey); BigInteger regionIncrement = range.divide(B

2016-06-21 19:02:06 3394

原创 SQuirrel 连不上 Phoenix Hbase ---> 可能是因为zookeeper 集群中的一个zookeeper 启动有问题

Unexpected Error occurred attempting to open an SQL connection.java.util.concurrent.TimeoutException at java.util.concurrent.FutureTask.get(Unknown Source) at net.sourceforge.squirrel_

2016-06-20 19:19:10 8209 1

原创 How Hbase store data in HDFS 数据在Hbase上的存储形式，Hbase 知识点概述

列族的最佳个数应该是一个或两个，不应该超过3 个标签个数没有限制数据是以二进制存储在Hbase （hbase 更像是一个数据管理系统，数据存储在HDFS中，这一点与DB2 和 oracle 类似，关系数据库数据存储在磁盘上）中，所以在通过java API操作Hbase时候，需要通过.getBytes() 转化成字节码形式单元格 Cell 是基本存储单元，一行数

2016-06-20 13:04:08 489

原创 Java API 操作Hbase

package com.bi.net;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.CompareFilter;import

2016-06-19 23:20:51 887 1

原创 Phoenix ,SQuirrel 与Hbase 搭建

Phoenix 与Hbase 搭建

2016-06-19 14:02:47 846

原创 zkServer.sh start zkServer启动失败

[root@bigdatacloud zookeeper-3.4.6]# cat zookeeper.out2016-06-19 13:06:57,359 [myid:] - INFO [main:QuorumPeerConfig@103] - Reading configuration from: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg

2016-06-19 13:13:41 13122

原创 MapReduce 运行原理---再聊MapReduce 的 Map ，Reduce 以及shuffle 过程

官网使用了三张图来描述shuffle 过程，Map 和 reduce 是我们自己写的程序，所以没有写进这三个图里面,今天主要围绕这三张图我们做一个简单的说明和复习：第一张图，从整体上把握流程上图提供的是整个流程的一部分，全部流程应该是有 4 个 Map ，3 个 Reduce ，这里只有一个map 一个 reduce 第一个问题： partiti

2016-06-15 10:50:53 2820 1

原创 DB2 不常用SQL语句集合

DB2 不常用SQL语句集合 1. reanme table dwmd1.Hope_Fact to Hope_Fact_201001012. db2 catalog tcpip node DB2PODS remote hostname server 50020 db2 catalog db ODS as ODSP at node DB2PODS db2 termi

2016-06-14 11:21:35 666

原创大数据世界要熟悉的5门语言

大数据世界要熟悉的5门语言课程Python OpenstackJava HadoopScala SparkShell LinuxSQL DB =================华丽分割线==============

2016-06-14 10:03:24 490

原创 Hive 优化（important）

Hive ive优化要点：优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。

2016-06-13 00:17:10 3659

原创 Hive2 beeline 使用方法

Hive2 beeline–Beeline 要与HiveServer2配合使用，支持嵌入模式和远程模式–启动HiverServer2 ,./bin/hiveserver2–启动Beeline–wangyue@wangyue-um:~/opt/hive/hive-0.12.0-cdh5.1.0$ ./bin/beeline–beeline> !connect jdbc:hive2

2016-06-12 21:45:02 19833 1

原创从join on和where执行顺序认识T-SQL查询处理执行顺序

原文： http://www.phpddt.com/db/join-on-where.htmlSQL语句中join连表时on和where后都可以跟条件，那么对查询结果集，执行顺序，效率是如何呢？通过查询资料发现：区别：on是对中间结果进行筛选，where是对最终结果筛选。执行顺序：先进行on的过滤, 而后才进行join。效率：如果是inner join, 放

2016-06-12 15:51:29 14832

转载 HiveServer2的高可用-HA配置

HiveServer2的高可用-HA配置：http://lxw1234.com/archives/2016/05/675.htm

2016-06-07 08:22:10 6011 1

转载使用Docker在本地搭建Hadoop分布式集群

原文地址： http://www.hengtianyun.com/download-show-id-583.html提到虚拟化，　Docker　最近很是火热！不妨拿来在本地做虚拟化，搭建Hadoop的伪分布式集群环境。虽然有点大材小用，但是学习学习，练练手也是极好的。文章比较长，建议先倒杯水，听我慢慢到来……先说一下我的思路吧：先使用Docker构建一个Ha

2016-06-06 16:10:10 1640

原创微博推荐第三个map 源码

package com.laoxiao.mr.tf;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;import java.io.IOException;import java.io.InputStream

2016-06-05 21:41:31 478

原创 PageRank 理解

在用Mapreduce 重写PageRank 的时候,每个页面的初始值为 pr =1 ,每循环一次（map & reduce）后，每个页面会得到一个新的page rank 值，在进行一次新的迭代，直到收敛于一个值，不再变化。

2016-06-02 09:12:17 371