自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(24)
  • 资源 (2)
  • 收藏
  • 关注

原创 nginx ---->flume ----->kafka ----> storm -----> hdfs

大数据架构简单流程图nginx ---->flume ----->kafka ----> storm -----> hdfs(mysql)------>hbse(hive)---->spark(MR)

2016-06-30 11:15:42 2513

原创 使用java MapReduce job 批量导入大额数据到Hbase

使用java MapReduce job 批量导入大额数据到Hbase

2016-06-29 09:19:25 427

原创 nginx HA and 负载均衡示意图

service keepalived start service tengine start

2016-06-27 22:50:52 435

原创 一张图玩转大数据架构流程

2016-06-27 12:03:19 1918

原创 nginx 错误, flume 集锦,太多bugs netstat -ntpl

[root@bigdatahadoop sbin]# ./nginx -t -c /usr/tengine-2.1.0/conf/nginx.confnginx: [emerg] "upstream" directive is not allowed here in /usr/tengine-2.1.0/conf/nginx.conf:47configuration file /usr/t

2016-06-26 13:28:19 2239

原创 透过面试题,洞察Hbase 核心知识点

第二部分:HBase核心知识点(对于Hbase实现核心LSM,会在下篇文章介绍)11. LSM含义是?AA 日志结构合并树(Log-Structured Merge Tree)B 二叉树C 平衡二叉树D 长平衡二叉树12. 下面对LSM结构描述正确的是? A、CA 顺序存储B 直接写硬盘C 需要将数据Flush到磁盘

2016-06-23 15:27:32 1662

原创 大数据,云计算 核心体系

第一阶段:linux+搜索+hadoop体系Linux大纲     这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等众多课程。因为企业中无一例外的是使用Linux来搭建或部署项目。1) Linux的介绍,Linux的安装:VMware Workstation虚拟软件

2016-06-22 13:28:58 6084

原创 Story share IBM 一同事职业发展履历

1. Your job scope?--- My Job role is P4 client architect. The responsibility of this role is listed as below:1). Support sales team to win new deals on P4 by clarifying clients' requirements, de

2016-06-22 10:17:03 1116

原创 hbase的调优

BigInteger lowestKey = new BigInteger(startKey, 16);BigInteger highestKey = new BigInteger(endKey, 16); BigInteger range = highestKey.subtract(lowestKey); BigInteger regionIncrement = range.divide(B

2016-06-21 19:02:06 3394

原创 SQuirrel 连不上 Phoenix Hbase ---> 可能是因为zookeeper 集群中的一个zookeeper 启动有问题

Unexpected Error occurred attempting to open an SQL connection.java.util.concurrent.TimeoutException    at java.util.concurrent.FutureTask.get(Unknown Source)    at net.sourceforge.squirrel_

2016-06-20 19:19:10 8209 1

原创 How Hbase store data in HDFS 数据在Hbase上的存储形式,Hbase 知识点概述

列族的最佳个数应该是一个或两个 ,不应该超过3 个标签个数没有限制数据是以二进制存储在Hbase (hbase 更像是一个数据管理系统,数据存储在HDFS中 ,这一点与DB2 和 oracle 类似 ,关系数据库 数据存储在磁盘上)中,所以在通过java API操作Hbase时候,需要通过.getBytes() 转化成字节码形式单元格 Cell 是基本存储单元 ,一行数

2016-06-20 13:04:08 489

原创 Java API 操作Hbase

package com.bi.net;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.CompareFilter;import

2016-06-19 23:20:51 887 1

原创 Phoenix ,SQuirrel 与Hbase 搭建

Phoenix 与Hbase 搭建

2016-06-19 14:02:47 846

原创 zkServer.sh start zkServer启动失败

[root@bigdatacloud zookeeper-3.4.6]# cat zookeeper.out2016-06-19 13:06:57,359 [myid:] - INFO  [main:QuorumPeerConfig@103] - Reading configuration from: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg

2016-06-19 13:13:41 13122

原创 MapReduce 运行原理---再聊MapReduce 的 Map ,Reduce 以及shuffle 过程

官网使用了三张图来描述shuffle 过程 ,Map 和 reduce 是我们自己写的程序,所以没有写进这三个图里面,今天主要围绕这三张图我们做一个简单的说明和复习 :第一张图,从整体上把握流程上图提供的是整个流程的一部分,全部流程应该是有 4 个  Map  ,3 个 Reduce ,这里只有一个map 一个  reduce 第一个问题 : partiti

2016-06-15 10:50:53 2820 1

原创 DB2 不常用SQL语句集合

DB2 不常用SQL语句集合 1. reanme table dwmd1.Hope_Fact to Hope_Fact_201001012. db2 catalog tcpip node DB2PODS remote hostname server 50020    db2 catalog db ODS as ODSP at node DB2PODS     db2 termi

2016-06-14 11:21:35 666

原创 大数据世界要熟悉的5门语言

大数据世界要熟悉的5门语言课程Python   OpenstackJava       HadoopScala     SparkShell      LinuxSQL        DB =================华丽分割线==============

2016-06-14 10:03:24 490

原创 Hive 优化 (important)

Hive ive优化 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。

2016-06-13 00:17:10 3658

原创 Hive2 beeline 使用方法

Hive2 beeline–Beeline 要与HiveServer2配合使用,支持嵌入模式和远程模式–启动HiverServer2 ,./bin/hiveserver2–启动Beeline–wangyue@wangyue-um:~/opt/hive/hive-0.12.0-cdh5.1.0$ ./bin/beeline–beeline> !connect jdbc:hive2

2016-06-12 21:45:02 19833 1

原创 从join on和where执行顺序认识T-SQL查询处理执行顺序

原文 :  http://www.phpddt.com/db/join-on-where.htmlSQL语句中join连表时on和where后都可以跟条件,那么对查询结果集,执行顺序,效率是如何呢?通过查询资料发现:区别:on是对中间结果进行筛选,where是对最终结果筛选。执行顺序:先进行on的过滤, 而后才进行join。效率:如果是inner join, 放

2016-06-12 15:51:29 14831

转载 HiveServer2的高可用-HA配置

HiveServer2的高可用-HA配置  :http://lxw1234.com/archives/2016/05/675.htm

2016-06-07 08:22:10 6011 1

转载 使用Docker在本地搭建Hadoop分布式集群

原文地址 :  http://www.hengtianyun.com/download-show-id-583.html提到虚拟化, Docker 最近很是火热!不妨拿来在本地做虚拟化,搭建Hadoop的伪分布式集群环境。虽然有点大材小用,但是学习学习,练练手也是极好的。文章比较长,建议先倒杯水,听我慢慢到来……先说一下我的思路吧:先使用Docker构建一个Ha

2016-06-06 16:10:10 1640

原创 微博推荐 第三个map 源码

package com.laoxiao.mr.tf;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;import java.io.IOException;import java.io.InputStream

2016-06-05 21:41:31 478

原创 PageRank 理解

在用Mapreduce 重写PageRank 的时候,每个页面的初始值 为  pr =1 ,每循环一次(map & reduce) 后 ,每个页面会得到一个新的page rank 值  ,在进行一次新的迭代,直到 收敛于一个值  ,不再变化 。

2016-06-02 09:12:17 371

etl 数据加载

etl 数据加载etl 数据加载etl 数据加载etl 数据加载

2011-11-10

数据库

数据库

2011-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除