showmyheart-CSDN博客

原创 hive的使用和优化笔记

hive.optimize.cp=true：列裁剪，取数只取在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询：SELECT a,b FROM T WHEREe hive.optimize.prunner：分区裁剪 LIMIT hive.limit.optimize.enable=true：优化LIMIT n语句使用

2015-04-25 00:01:02 2382

原创 NameNode 的主备切换实现

NameNode 主备切换主要由 ZKFailoverController、HealthMonitor 和 ActiveStandbyElector 这 3 个组件来协同实现：ZKFailoverController 作为 NameNode 机器上一个独立的进程启动 (在 hdfs 启动脚本之中的进程名为 zkfc)，启动的时候会创建 HealthMonitor 和 ActiveStand

2015-12-28 16:55:51 3971

在 Hadoop 1.0 时代，Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题，这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息，一旦 NameNode 挂掉，整个 HDFS 就无法访问，同时 Hadoop 生态系统中依赖于 HDFS 的各个组件，包括 MapReduce、Hive、Pi

2015-12-28 16:53:14 728

原创 Strom简介

Nimbus: 负责资源分配和任务调度，把任务相关的元信息写入Zookeeper相应目录中。Supervlsor: 负责接收Nimbus分配的任务，启动和停止属于自己管理的worker进程。Worker: 运行具体处理组件逻辑的线程。Executor: 运行Splout/bolt的线程。Task： worker中每一个spout/bolt的线程称为一个task.Topolo

2015-05-22 11:09:36 1013

原创 scala初学12步

第一步：下载和安装Scala在官网下载并接压缩，像安装ANT或MAVEN之类的那样，把解压后的bin路径加到path里面去就可以了。在命令行模式下输入Scalacmd 写道C:\Documents and Settings\19002850>scala Welcome to Scala version 2.7.5.final (Java HotSpot(TM) Client

2015-04-29 11:14:01 783

原创 Storm与MRv1类比--Storm初步印象

MRv1StormJobTrackerNimbusTaskTrackerSupervisorChildWorkerJobTopologyMap/ReduceSpout/BlotshuffleStream grouping

2014-06-16 10:25:10 792

原创 Storm On YARN带来的好处

1）弹性计算资源将storm运行在yarn上后，Storm可以与其他计算框架（如mapreduce)共享整个集群的资源，这样当Storm负载骤增时，可动态为它增加计算资源。负载减小时，可以释放资源。2）共享底层存储运行在yarn上的Storm可以与其他计算框架共享HDFS存储，避免多个集群带来的维护成本，同时避免了数据跨集群复制带来的网络开销。3）支

2014-06-16 10:23:50 1477

原创 YARN的工作流程

1、用户向YARN中提交应用程序，其中包括ApplicationMaster（AM）程序，启动AM的命令，用户程序等。2、ResourceManger(RM)为该程序分配第一个Container，并与对应的NodeManger通讯，要求它在这个Container中启动应用程序AM。3、AM首先向RM注册，这样用户可以直接通过RM查看应用程序的运行状态，然后将为各个任务申请资源，并监控

2014-03-23 10:59:27 2283

原创 GPDB管理员笔记（五）GP系统配置

在GPDB中，Master和每个Segment Instance都有自己的postgresql.conf文件。一些参数为本地化参数，意味着每个Segment Instance都根据自己的postgresql.conf文件来获取参数的值。对于本地化参数来说，必须在系统中的每个Instance(Master和Segment)配置。配置修改要在GPDB系统所有的postgr

2014-03-18 14:49:22 2186

原创 GPDB管理员笔记（四）GP的起停

启动gpstart重启gpstop -r 修改配置后生效gpstop -u维护模式启动Master1. 以-m参数执行gpstart命令：$ gpstart -m2. 以工具模式连接Master做日志维护。例如：$ PGOPTIONS='-c gp_session_role=utility' psql template13.

2014-03-13 11:05:54 1782

原创 GPDB管理员笔记（三）装载和卸载数据

外部表定义可读外部表（不可以做dml操作）可写外部表（只insert,不可以select,update,delete）装载创建外部表=# CREATE EXTERNAL WEB TABLE ext_expenses (name text,date date, amount float4, category text, description text)LOCAT

2014-03-13 11:04:34 2927

原创 GPDB管理员笔记（二）管理数据

并发访问控制与事务型数据库系统通过锁机制来控制并发访问的机制不同，GPDB(与PostgreSQL一样)使用多版本控制(Multiversion Concurrency Control/MVCC)保证数据一致性。这意味着在查询数据库时，每个事务看到的只是数据的快照，其确保当前的事务不会看到其他事务在相同记录上的修改。据此为数据库的每个事务提供事务隔离。MVCC以避免给数据库事务

2014-03-10 13:27:54 1361

原创 GPDB管理员笔记（一）数据库对象

数据库对象管理1、创建数据库 create database new_dbname; createdb -h localhost -p 5432 mydb2、克隆数据库 3、查看数据libo=# \l List of databases Name | Owner | Encoding | Access privil

2014-03-10 13:25:37 8345

原创 Greenplum环境安装配置步骤

1、环境准备服务器分配192.168.100.101--mdw192.168.100.11--smdw192.168.100.12--sdw1192.168.100.13--sdw2ms1与ms2之间的心跳ip配置10.10.10.1--mdw10.10.10.2--smdw2、修改hosts文件(所有主机hosts文件必须全部修改）

2014-03-10 10:23:40 4953

原创作业从提交到执行流程图

1、客户端调用作业提交函数将程序提交到JobTracker;2、JobTracker收到新的作业后，通知任务调度器对作业初始化；3、TastTracker向JobTracker汇报心跳，其中包含剩余的slot数目和能否接受新的任务等信息4、如果这个TaskTracker能够接受新的任务，则JobTracker调用TaskScheduler对外函数assignTasks为该TaskTra

2013-12-11 12:45:26 1617

原创 hbase目录结构

hbase的数据保存在hadoop的hdfs中。通过hbase-site.xml配置hbase.rootdir制定在hdfs的路径目录组成如下图：WALs目录中保存了hbase的WAL日志文件（Write-ahead-log),每台regionserver的WAL文件保存在以这台服务器hostname为首字母命名的目录中。old_WALs目录用于存储过期的WAL日志.o

2013-11-21 16:23:47 4027

原创 hbase的一次Not running balancer故障解决

在master的日志如下问题：2013-11-19 06:24:35,134 DEBUG [h1,60000,1384804461419-BalancerChore] balancer.BaseLoadBalancer: Not running balancer because only 1 active regionserver(s)2013-11-19 06:29:35,451 D

2013-11-20 11:10:26 6579

原创 HQL常用记录小结

1)查看帮助信息hbase(main):027:0> helpHBase Shell, version 0.96.0-hadoop1, r1531434, Fri Oct 11 15:11:29 PDT 2013Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for help on a spe

2013-11-19 11:24:24 1316

转载用hadoop？还是不用hadoop?

Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop！实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择。对另一些问题来说，选择Hadoop甚至会是一个错误。对于数据转换的操作，或者更广泛意义上的抽取－转换－装载的操作（译者注：Extr

2013-11-19 02:03:27 1290

原创 hbase安装配置

1) 解压缩下载的hbase文件（注意：对应hadoop的安装版本） [grid@h1 ~]$ tar -zxvf hbase-0.95.2-hadoop1-bin.tar.gz [grid@h1 ~]$ ll hbase-0.95.2-hadoop2总计 460drwxr-xr-x 4 grid grid 4096 08-10 12:10 bin-rw-r--r--

2013-11-18 23:16:23 1757

原创 hiveQL分区表

1、分区表的创建hive> create table part (str string) > partitioned by (data string);OKTime taken: 0.158 seconds2、加载数据时显示指定分区值hive> load data local inpath 'file1' > into table part >

2013-11-07 13:25:38 1764

原创 hiveQL 外部表

1、创建外部表hive> create external table ext_t (name string) > location '/user/grid/ext_t';OKTime taken: 5.494 seconds使用external 关键字后，hive知道数据并不是由自己管理的，因此不会吧数据移动到自己的目录，即：在表定义时，甚至不会去检查这个外部位置是否存在

2013-11-07 12:41:00 972

转载 hive的安装与配置

1. hive安装在hadoop.client上2. 解压缩安装在/home/hadoopuser下3. 配置(1) 复制一份hive-env.sh.template，取消.template后缀(2) 更改hive-env.sh的内容:HADOOP_HOME=/home/hadoopuser/hadoop(3) 复制一份hiv

2013-11-04 23:24:37 868

原创 java的封装

定义：通过将类的成员变量声明为私有的（private),在提供一个或多个公有（public)方法实现对该成员变量的访问或修改，这种方式被称为封装实例代码：package libo;class TestPerson {private intage;public void setage(int i){ if (i100) return

2013-10-31 17:51:29 643

原创 MapReduce实战--分析apatch日志访问页面大小

日志文件：220.181.108.151 - - [31/Jan/2012:00:02:32 +0800] "GET /home.php?mod=space&uid=158&do=album&view=me&from=space HTTP/1.1" 200 8784 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.bai

2013-10-28 11:15:20 1305

转载各种sql在pig中的实现

本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1317084 我这里以Mysql 5.1.x为例,Pig的版本是0.8 同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下: tmp_file_1:Txt代码 zhangsan 23

2013-10-19 22:08:34 733

原创 MapReduce实战--内连接

要求：输入文件的左列是child，右列是parent.要求从这个文件分析得出输出文件grandchild和grandparent列

2013-10-19 21:11:11 1785

原创在eclipse中配置hadoop插件

1、安装插件Eclipse Standard 4.3.1hadoop-eclipse-plugin-1.2.1.jar2、打开MapReduce视图Window--->Perspecttive 3、添加MapReduce环境在eclipse下端，控制台旁边会多一个Tab，叫“Map/Reduce Locations

2013-10-10 15:08:50 2661

原创 java数组复制与排序

数组复制System.arraycopy()rihiroshitekiMacBook-Air:test LiBo$ java ArrayTest123rihiroshitekiMacBook-Air:test LiBo$rihiroshitekiMacBook-Air:test LiBo$rihiroshitekiMacBook-Air:test LiBo$

2013-09-25 15:57:52 779

原创 java基础知识--回收站和接口

一、回收站垃圾回收是一个优先级比较低的线程，只有在内存不足时才被系统自动调用回收(频繁运行，反而会影响效率）localhost:test LiBo$ cat Garbage.javaclass Garbage{ int index; static int count; Garbage() { count++;

2013-09-17 23:14:12 1044

原创 java面向对象（四）多态性

通过覆盖父类的方法来实现，在运行时根据传递的对象引用，来调用相应的方法rihiroshitekiMacBook-Air:test LiBo$ java Integrationfish breatherihiroshitekiMacBook-Air:test LiBo$ cat Animal.javaclass Animal{ int height,w

2013-09-16 17:41:54 580

原创 java面向对象（三）常量的定义&类的继承

1】常量的定义使用关键字final定义常量，例如：final double PI=3.1415926;作为一种约定，在定义常量时，通常采用大写形式final常量可以在声明的同时赋初始值，也可以在构造函数中赋初始值。为了节省内存，我们通常将常量声明为静态的（static).rihiroshitekiMacBook-Air:test LiBo$ cat Point.ja

2013-09-16 16:56:07 1052

原创 java面向对象（二）特殊变量this

this 变量代表对象本身当类中有两个同名变量，一个属于类（类的成员变量），而另一个属于某个特定的方法（方法中的局部变量），使用this区分成员变量和局部变量。class Point{ int x,y; Point(int a,int b) { x=a; y

2013-09-16 16:53:25 929

原创 java面向对象（一）new 关键字的作用&缺省构造方法

1】new 关键字的作用为对象分配内存空间引起对象构造方法的调用为对象返回一个引用 $ cat Point.javaclass Point{ int x,y; Point(int a,int b) { x=a; y=b; } void output()

2013-09-16 16:48:49 2363

转载 Hadoop大家族框架介绍

转载请注明出处：http://blog.fens.me/hadoop-family-roadmap/Hadoop家族产品Hadoop家族学习路线图1. Hadoop家族产品截止到2013年，根据cloudera的统计，Hadoop家族产品已经达到20个！http://blog.cloudera.com/bl

2013-09-13 20:44:18 1731

原创 ant的使用

1、下载ant http://ant.apache.org/bindownload.cgi2、[grid@h1 hadoop-1.2.1]$ tar -xvf apache-ant-1.9.2-bin.tar[grid@h1 hadoop-1.2.1]$ cd apache-ant-1.9.2[grid@h1 apache-ant-1.9.2]$ lsbin etc fetch

2013-09-11 22:31:03 973

原创 hadoop日志级别修改

相关工具：[grid@h1 conf]$ hadoop daemonlog -hUSAGES:java org.apache.hadoop.log.LogLevel -getlevel java org.apache.hadoop.log.LogLevel -setlevel 例如：[grid@h1 conf]$ hadoop daemonlog

2013-09-08 20:58:02 2827

原创 hdfs 常用java API---代码篇（二）

1、使用FileSystem以标准输出格式显示hadoop文件系统中的文件源代码：import org.apache.hadoop.conf.Configuration;import java.io.InputStream;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.fs.FileSystem;i

2013-09-07 23:26:38 1371

原创 hdfs 常用java API---代码篇（一）

一、hadoop环境准备（我安装的hadoop版本是hadoop-1.2.1) 首先要配置hadoop环境变量HADOOP_CLASSPATH(我的hadoop安装在了/home/grid/hadoop-1.2.1)： # Set Hadoop-specific environment variables here.# The only required

2013-09-07 20:53:58 2018

原创 secondNamenode chkpiont的理解

每次进行写操作，edits都要进行更新和同步数据（这点与oracle的redo日志很相似）下面的测试说明这一点：写数据前edits的大小：[grid@h1 current]$ ll总计 16-rw-rw-r-- 1 grid grid 4 08-24 12:24 edits写入数据：[grid@h1 current]$ hadoop fs -put VERSI

2013-09-05 22:08:41 1316

雍俊海java程序设计教

空空如也