2016年04月_wzy0623

原创 kylin 安装配置实验

一、实验环境3台CentOS release 6.4虚拟机，IP地址为192.168.56.101 master192.168.56.102 slave1192.168.56.103 slave2hadoop 2.7.2hbase 1.1.4hive 2.0.0zookeeper 3.4.8kylin 1.5.1（一定要apache-kylin-1.5.1-

2016-04-29 17:43:19 25594 5

原创基于独立Zookeeper集群的Hbase 安装配置实验

前面做了基于Hbase自带Zookeeper的安装配置（参考http://blog.csdn.net/wzy0623/article/details/51241641），今天做了个基于独立Zookeeper集群的。一、实验环境3台CentOS release 6.4虚拟机，IP地址为192.168.56.101 master192.168.56.102 slave1192.

2016-04-28 18:00:26 4027 1

原创重新编译Hadoop 2.7.2 native以支持snappy

问题提出：在运行kylin sample时出现以下错误：org.apache.hadoop.hive.ql.metadata.HiveException: native snappy library not available: this version of libhadoop was built without snappy support.造成以上错误的原因是Hadoop的二进制

2016-04-27 17:43:02 9353 1

原创 Hbase 安装配置实验

一、实验环境3台CentOS release 6.4虚拟机，IP地址为192.168.56.101 master192.168.56.102 slave1192.168.56.103 slave2hadoop 2.7.2hbase 1.2.1hbase与hadoop的版本兼容性，参考http://hbase.apache.org/book.html#basic.

2016-04-25 13:38:27 3819

原创 Zeppelin 安装部署实验

一、实验目的1. 使用Zeppelin运行SparkSQL访问Hive表2. 动态表单SQL二、实验环境：12个节点的Spark集群，以standalone方式部署，各个节点运行的进程如表1所示。主机名运行进程nbidc-agent-03Hadoop NameNodeSpark Master

2016-04-20 16:02:27 7454

原创 Pentaho Work with Big Data（八）—— kettle集群

一、简介集群技术可以用来水平扩展转换，使它们能以并行的方式运行在多台服务器上。转换的工作可以平均分到不同的服务器上。一个集群模式包括一个主服务器和多个子服务器，主服务器作为集群的控制器。简单地说，作为控制器的Carte服务器就是主服务器，其他的Carte服务器就是子服务器。一个集群模式也包含元数据，元数据描述了主服务器和子服务器之间怎样传

2016-04-18 22:14:07 5123 1

原创 Pentaho Work with Big Data（七）—— 从Hadoop集群抽取数据

一、把数据从HDFS抽取到RDBMS1. 从下面的地址下载示例文件。 http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate=13270678580002. 用下面的命令把解压缩后的weblogs_aggregate.txt文

2016-04-15 13:30:59 7275

原创 Pentaho Work with Big Data（六）—— 使用Pentaho MapReduce生成聚合数据集

本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时，这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据，并且建立一个聚合文件，包含按IP和年月分组的PV数。关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录，参考http://blog.csdn.net/wz

2016-04-14 16:22:48 3602

原创 Pentaho Work with Big Data（五）—— 格式化原始web日志

本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。一、向HDFS导入示例数据文件将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下（因资源有限，本示例只取了这个文件的前10行数据）参考：http://blog.csdn.net/wzy0623/article/details/51133760二

2016-04-13 18:17:52 5143

原创 Pentaho Work with Big Data（四）—— 转换Hive里的数据

1. 建立hive表，导入原始数据，过程参考http://blog.csdn.net/wzy0623/article/details/511337602. 建立一个作业，查询hive表，并将聚合数据写入一个hive表（1）打开PDI，新建一个作业，如图1所示。图1（2）建立一个hive的数据库连接，如图2所示。图2说明： kettle连接hive的相

2016-04-13 10:44:50 1951

原创 Pentaho Work with Big Data（三）—— 向Hadoop集群导入数据

1. 向HDFS导入数据. 从下面的地址下载web日志示例文件，解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificati

2016-04-12 15:22:47 3002

原创 Spark on YARN 部署实验

以前的Spark部署都是使用的standalone方式，集群中的每台机器都安装部署Spark，然后启动Master和Worker进程运行Spark。今天尝试一下Spark on YARN的部署方式。一、实验目的1. 只在一台机器上安装Spark，基于已有的Hadoop集群，使用YARN调度资源。2. 不启动Master和Worker进程提交Spark作业。3. 通过YARN的W

2016-04-11 12:40:07 4559

原创 Pentaho Work with Big Data（二）—— Kettle提交Spark作业

实验目的：配置Kettle向Spark集群提交作业。实验环境：4台CentOS release 6.4虚拟机，IP地址为192.168.56.101192.168.56.102192.168.56.103192.168.56.104192.168.56.101是Spark集群的主，运行Master进程。192.168.56.102、192.168.56.

2016-04-08 16:09:37 10399

原创 Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始，今天实验了一下Kettle连接Hadoop集群。实验目的：配置Kettle连接Hadoop集群的HDFS。实验环境：4台CentOS release 6.4虚拟机，IP地址为192.168.56.101192.168.56.102192.168.56.103192.168.56.104

2016-04-07 16:10:49 18887 14

wzy0623的专栏