qq_34758244-CSDN博客

原创 YCSB-HBase介绍与使用

一.YCSB介绍英文全称：Yahoo! Cloud Serving Benchmark (YCSB) 。是Yahoo公司的一个用来对云服务进行基础测试的工具。目标是促进新一代云数据服务系统的性能比较。为四个广泛使用的系统：Cassandra,、HBase、PNUTS和一个简单的片式MySQL执行，订了套核心基准测试和结果报告。YCSB的特点：可扩展的，除了很容易对新系统进行基准测试，支

2016-08-30 14:46:44 3101

原创 Azkaban安装与应用

一． Azkaban简介介绍：azkaban主要用来解决hadoop依赖任务的执行有三个组件： 1.关系型数据库mysql 2.web管理服务器 azkabanWebServer 3.执行服务器 azkabanExecutorServer 三个运行模式： solo server mode：最简单的模式，数据库内置的h2数据库，管理服务器和执行服务器都在一个进程中运行，任务量不大项

2016-08-12 18:40:09 2350

转载 contab与hive自动执行任务

yum install vixie-cron //cron的主程序 yum install crontabs //驱动，安装、卸载、或列举来驱动cron守护进程的表格程序 service crond start service crond stop service crond restart service crond reload //重新载入 service crond stat

2016-08-09 17:40:23 4363

原创 hive测试，分区，分桶，索引

结合上次文章hbase测试，此篇文章对hive进行测试，同样的数据 java -cp dbgen-1.0-jar-with-dependencies.jar DBGen -p ./data -b 4 -c 4 -t 4 创建三张表 CREATE EXTERNAL TABLE books3( id BIGINT, isbn STRING, category STRING, publish

2016-08-01 13:11:45 605

原创 hbase测试，pe，分区

下载造数据的包 wget http://elasticmapreduce.s3.amazonaws.com/samples/impala/dbgen-1.0-jar-with-dependencies.jar 有过下载不了就直接去该连接去下载生成数据 java -cp dbgen-1.0-jar-with-dependencies.jar DBGen -p ./data -b 4 -c 4

2016-07-29 11:31:50 2808

原创 hadoop测试

Hadoop基准测试 Hadoop本身自带的一些基准测试的jar包进入hadoop的安装目录，可以看到有一个hadoop-mapreduce-examples-xxx.jar的jar包，直接不给参数直接运行,会列出所有的测试程序 [root@bigdata-server-1hadoop]# hadoop jar hadoop-mapreduce-examples-2.7.1.2.3.4.0

2016-07-06 17:23:54 425

原创 cendos集群时间同步

cendos集群时间同步再安装hadoop集群的时候，时间同步是一个至关重要的问题，在平时的试产运营环境中，如果时间相差很多，会出现各种各样的问题，下面我来简单的介绍一下cendos中集群同步的问题首先，先择一台服务器为时间同步服务器，在这台服务器上安装ntp ~]# yum -y install ntp 启动ntp服务 ~]# service ntpd start 修改配

2016-07-04 14:24:21 321

原创 Spark的算子分类及功能

Spark的算子分类及功能 Spark的算子作用 1.输入：在Spark程序运行中，数据从外部数据空间输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过BlockManager进行管理 2.运行：在Spark数据输入形成RDD后便可以通过变换算子，如filter等，对数据进行操作并将RDD转化为新的RDD，通过Action算子，触发Spark提交作业。如果数据需

2016-07-01 16:17:07 1929

原创 Spark初识

Spark计算模型 Spark将数据（包括部分中间数据）放在内存，在内存中计算，用户将重复利用的数据缓存在内存，提高下次的计算效率，因此Spark尤其适合迭代型和交互型任务，Spark需要大量的内存，但性能可随机器数目呈多线性增长。 Spark程序模型 RDD：弹性分布式数据集 RDD操作起来与scala集合类型没有太大的差别，这就是Spark追求的目标，像编写单机程序一样编写分布式程序，但

2016-06-28 16:10:28 338

原创 Spark之WordCount

WordCount 的主要功能就是统计输入中所有单词的出现的次数，辨析的步骤如下 1。初始化创建一个SparkContext对象，该对象有4个参数：Spark master位置、应用程序名称、Spark安装目录和jar存放位置加载文件 val textRDD = sc.textFile(“file:///home/test/sparkcont”) 将文件使用flatMap来按行进行处

2016-06-24 14:00:25 308

原创在linux中部署tomcat

下载tomcat8 http://tomcat.apache.org/download-80.cgi 点击archives 选择一个需要下载的版本之后上传到linux中 [root@bigdata-server-1 opt]# tar -zxf apache-tomcat-8.0.20.tar.gz [root@bigdata-server-1 opt]# mv apach

2016-06-23 13:57:29 358

原创 Sqoop的那些事

Sqoop的安装该项目位置：http://sqoop.apache.org/ 下载之后直接解压就好了，安装超级简单。 Sqoop连接器 sqoop拥有一个可扩展的框架，使得他能够从（向）任何支持批量数据传输的外部存储系统导入（导出）数据。sqoop可以连接到大多数的关系型数据库，比如mysql、Oracle、sql server和DB2等。同时还有一个jdbc连接器

2016-06-20 12:17:19 271

原创 java日期格式的转换

Date d = new Date(); long nowTime = d.getTime();//换区现在的时间（格式是毫秒的）SimpleDateFormat sdf=new SimpleDateFormat(“yyyy-MM-dd HH:mm:ss”);//定义一个时间的格式 String time=”2000-01-01 00:00:00”; //自己定义一个时间点 long time

2016-06-12 17:45:37 374

原创使用yum安装jdk

使用yum来安装jdk

2016-06-08 11:18:57 789

SaberWang_Wxb