- 博客(24)
- 资源 (2)
- 收藏
- 关注
原创 nginx ---->flume ----->kafka ----> storm -----> hdfs
大数据架构简单流程图nginx ---->flume ----->kafka ----> storm -----> hdfs(mysql)------>hbse(hive)---->spark(MR)
2016-06-30 11:15:42 2514
原创 nginx 错误, flume 集锦,太多bugs netstat -ntpl
[root@bigdatahadoop sbin]# ./nginx -t -c /usr/tengine-2.1.0/conf/nginx.confnginx: [emerg] "upstream" directive is not allowed here in /usr/tengine-2.1.0/conf/nginx.conf:47configuration file /usr/t
2016-06-26 13:28:19 2241
原创 透过面试题,洞察Hbase 核心知识点
第二部分:HBase核心知识点(对于Hbase实现核心LSM,会在下篇文章介绍)11. LSM含义是?AA 日志结构合并树(Log-Structured Merge Tree)B 二叉树C 平衡二叉树D 长平衡二叉树12. 下面对LSM结构描述正确的是? A、CA 顺序存储B 直接写硬盘C 需要将数据Flush到磁盘
2016-06-23 15:27:32 1662
原创 大数据,云计算 核心体系
第一阶段:linux+搜索+hadoop体系Linux大纲 这章是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,kvm,openstack等众多课程。因为企业中无一例外的是使用Linux来搭建或部署项目。1) Linux的介绍,Linux的安装:VMware Workstation虚拟软件
2016-06-22 13:28:58 6084
原创 Story share IBM 一同事职业发展履历
1. Your job scope?--- My Job role is P4 client architect. The responsibility of this role is listed as below:1). Support sales team to win new deals on P4 by clarifying clients' requirements, de
2016-06-22 10:17:03 1116
原创 hbase的调优
BigInteger lowestKey = new BigInteger(startKey, 16);BigInteger highestKey = new BigInteger(endKey, 16); BigInteger range = highestKey.subtract(lowestKey); BigInteger regionIncrement = range.divide(B
2016-06-21 19:02:06 3394
原创 SQuirrel 连不上 Phoenix Hbase ---> 可能是因为zookeeper 集群中的一个zookeeper 启动有问题
Unexpected Error occurred attempting to open an SQL connection.java.util.concurrent.TimeoutException at java.util.concurrent.FutureTask.get(Unknown Source) at net.sourceforge.squirrel_
2016-06-20 19:19:10 8209 1
原创 How Hbase store data in HDFS 数据在Hbase上的存储形式,Hbase 知识点概述
列族的最佳个数应该是一个或两个 ,不应该超过3 个标签个数没有限制数据是以二进制存储在Hbase (hbase 更像是一个数据管理系统,数据存储在HDFS中 ,这一点与DB2 和 oracle 类似 ,关系数据库 数据存储在磁盘上)中,所以在通过java API操作Hbase时候,需要通过.getBytes() 转化成字节码形式单元格 Cell 是基本存储单元 ,一行数
2016-06-20 13:04:08 489
原创 Java API 操作Hbase
package com.bi.net;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.CompareFilter;import
2016-06-19 23:20:51 887 1
原创 zkServer.sh start zkServer启动失败
[root@bigdatacloud zookeeper-3.4.6]# cat zookeeper.out2016-06-19 13:06:57,359 [myid:] - INFO [main:QuorumPeerConfig@103] - Reading configuration from: /usr/local/zookeeper-3.4.6/bin/../conf/zoo.cfg
2016-06-19 13:13:41 13122
原创 MapReduce 运行原理---再聊MapReduce 的 Map ,Reduce 以及shuffle 过程
官网使用了三张图来描述shuffle 过程 ,Map 和 reduce 是我们自己写的程序,所以没有写进这三个图里面,今天主要围绕这三张图我们做一个简单的说明和复习 :第一张图,从整体上把握流程上图提供的是整个流程的一部分,全部流程应该是有 4 个 Map ,3 个 Reduce ,这里只有一个map 一个 reduce 第一个问题 : partiti
2016-06-15 10:50:53 2820 1
原创 DB2 不常用SQL语句集合
DB2 不常用SQL语句集合 1. reanme table dwmd1.Hope_Fact to Hope_Fact_201001012. db2 catalog tcpip node DB2PODS remote hostname server 50020 db2 catalog db ODS as ODSP at node DB2PODS db2 termi
2016-06-14 11:21:35 666
原创 大数据世界要熟悉的5门语言
大数据世界要熟悉的5门语言课程Python OpenstackJava HadoopScala SparkShell LinuxSQL DB =================华丽分割线==============
2016-06-14 10:03:24 490
原创 Hive 优化 (important)
Hive ive优化 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。
2016-06-13 00:17:10 3659
原创 Hive2 beeline 使用方法
Hive2 beeline–Beeline 要与HiveServer2配合使用,支持嵌入模式和远程模式–启动HiverServer2 ,./bin/hiveserver2–启动Beeline–wangyue@wangyue-um:~/opt/hive/hive-0.12.0-cdh5.1.0$ ./bin/beeline–beeline> !connect jdbc:hive2
2016-06-12 21:45:02 19833 1
原创 从join on和where执行顺序认识T-SQL查询处理执行顺序
原文 : http://www.phpddt.com/db/join-on-where.htmlSQL语句中join连表时on和where后都可以跟条件,那么对查询结果集,执行顺序,效率是如何呢?通过查询资料发现:区别:on是对中间结果进行筛选,where是对最终结果筛选。执行顺序:先进行on的过滤, 而后才进行join。效率:如果是inner join, 放
2016-06-12 15:51:29 14832
转载 HiveServer2的高可用-HA配置
HiveServer2的高可用-HA配置 :http://lxw1234.com/archives/2016/05/675.htm
2016-06-07 08:22:10 6011 1
转载 使用Docker在本地搭建Hadoop分布式集群
原文地址 : http://www.hengtianyun.com/download-show-id-583.html提到虚拟化, Docker 最近很是火热!不妨拿来在本地做虚拟化,搭建Hadoop的伪分布式集群环境。虽然有点大材小用,但是学习学习,练练手也是极好的。文章比较长,建议先倒杯水,听我慢慢到来……先说一下我的思路吧:先使用Docker构建一个Ha
2016-06-06 16:10:10 1640
原创 微博推荐 第三个map 源码
package com.laoxiao.mr.tf;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;import java.io.IOException;import java.io.InputStream
2016-06-05 21:41:31 478
原创 PageRank 理解
在用Mapreduce 重写PageRank 的时候,每个页面的初始值 为 pr =1 ,每循环一次(map & reduce) 后 ,每个页面会得到一个新的page rank 值 ,在进行一次新的迭代,直到 收敛于一个值 ,不再变化 。
2016-06-02 09:12:17 371
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人