2016年03月_初级以上

原创 Hive1.2.1的安装过程

一、环境说明：1、Ubuntu 14.0.4的操作系统；2、Hadoop2.7.2的伪分布模式；在准备安装Hive之前要确保Hadoop能够正常运行；3、Hive必须部署在一台能够访问到HDFS的机器上；二、安装步骤：2.1、解压与测试:1、解压apache-hive-1.2.1-bin-tar.gz；2、进入解压目录中的conf目录下，把hive-default.

2016-03-30 22:26:23 4133

原创 Hadoop编程-自定义Hadoop数据类型报错：NoSuchMethodException

Hadoop拥有自己一个I/O机制，要用Mapper、Reducer对数据进行处理，就离不开Hadoop提供的I/O基础数据类型，Hadoop提供了BooleanWritable、ByteWritable、IntWritable、FloatWritable、DoubleWritable、LongWritable等。用Hadoop提供的这些基础数据类型，可以解决一些简单的数据处理，如：最常见的“词频

2016-03-27 17:17:52 1600

转载 JVM 参数介绍

参数开关：参数默认值或限制说明参数默认值功能-XX:-AllowUserSignalHandlers限于Linux和Solaris，默认不启用允许为java进程安装信号处理器,信号处理参见类:sun.misc.Signal, sun.misc.SignalHandler-XX:+Di

2016-03-12 14:45:33 427

转载 Ubuntu14.0.4下，shell编译-打包-运行Hadoop2.7.2的MapReduce程序

本文实例环境： Ubuntu14.0.4 Hadoop 2.7.2 本文是根据对网上【作者：给力星】的文件的实践，作者原文在： http://www.powerxing.com/hadoop-build-project-by-shell/一、Hadoop 2.x 版本中的依赖 jar Hadoop 2.x 版本中 jar

2016-03-08 12:06:39 943

原创 linux shell 编程笔记 - 命令执行顺序

1、使用&& 在shell脚本中，可以通过&&来实现逻辑与操作。命令执行成功，则返回0，表示逻辑真；一般形式如下：命令1 && 命令2 相当于：命令1执行成功了&&命令2才执行。实例：将文件从copy1转移到copy2，然后删除copy1。cb@Standalone14:~/Documents/sh

2016-03-05 21:53:06 692

原创 linux shell 编程笔记 - 文件重定向

在执行命令时，使用文件重定向，可以为命令指定标准输入、输出和错误。1、重定向标准输出1）标准输出重定向到文件：cb@Standalone14:~/Documents/shellT$ cat /etc/passwd | awk -F: '{print $1}' | sort 1>~/Documents/shellT/sort.out 将用户文件内容传输给awk命令，取出

2016-03-05 21:44:37 870

原创 linux shell 编程笔记 - shell的输入与输出 -3- 标准输入-标准输出-标准错误

在shell中执行命令时，每个进程都和三个打开的文件相联系，并使用文件描述符来引用这些文件，这些文件如下图：标准输入、输出的文件描述符一般可以省略，但是标准错误的文件描述符是不可以省略的。文件描述符，说白了就是提供给用户选择标准输入的方式。1、标准输入标准输入是文件描述符0。缺省是键盘，也可以是文件或者是其他命令的输出。

2016-03-05 00:07:41 1094

原创 linux shell 编程笔记 - shell的输入与输出 -2- read - cat - 管道

1、read命令read命令可以通过键盘或者一个文件的某一行文本读入信息，并赋值给一个变量。1.1、read读取键盘数据，把输入的内容回车前的数据赋值给一个变量：cb@Standalone14:~$ read namehello cb i am ubuntu. #回车cb@Standalone14:~$ echo $namehello cb i am ubuntu.

2016-03-04 21:23:27 896

原创 linux shell 编程笔记 - shell的输入与输出 -1- echo命令

echo命令可以显示文本或变量，也可以把文本或变量写到文件中。1）、在echo中使用转义字符，如：\t，\n，\"\"等，需要跟参数-e：2）、将echo的输出，通过>重定向到文件中：（如果文件中有内容，则直接被覆盖）3）、将echo的输出，通过>>重定向追加到文件中：4）、通过参数-n，来禁用echo输出后换行：

2016-03-04 21:13:59 615

原创 linux shell 编程笔记 - 后台执行命令&

当作业在终端运行时，会占据终端，这样，你再想在终端做点什么事情就不方便了——得等。当然现在桌面版的linux就不会有这个麻烦了，分分钟都很方便你再打开一个新的终端。&命令可以将作业放到系统后台去运行。适合在后台运行的命令有find、费时的打印作业、费时的排序及一些Shell脚本。切记不要将需要交互的命令放到后台去执行，系统会因此傻等你的输入，导致消耗系统资源。1、提交后台作业到cron进程

2016-03-04 21:04:11 779

原创 linux shell 编程笔记 - 后台执行命令crontab

后台执行命令，就是把shell命令放到系统后台去执行，不会在终端显示，不会影响用户在终端继续工作；就算终端关闭了命令也一样在执行。名词解释：1）、cron 系统调度进程； 2）、at at命令，在特定的时间运行特殊的作业； 3）、& 在后台运行一个占用时间不长的进程； 4）、Nohup 在后台运行一个命令，即使用户退

2016-03-03 19:58:42 2201

原创 linux shell 编程笔记 - 常用的find和xargs

find命令工具用于在目录下（甚至是整个文件系统），遍历地查找文件；find path_name -option [-print -exec -ok] #find的一般格式；1、find命令的选项（-option）1.1、根据名称查找文件和目录（-name）： cb@Standalone14:~/Documents$ find . -name "cb*" -print

2016-03-03 18:52:40 482

原创 linux shell 编程笔记 - 文件安全与权限

1、文件：1.1、文件的访问方式有3种：1）读（显示文件内容）；2）写（编辑、删除、修改权限）；3）执行（运行shell脚本，程序等可执行的文件）。1.2、文件的权限可分为3种：1）文件属主2）同组用户3）其他用户。一个文件的权限，是通过9位的权限位来表示，通过list -l可以看到得到。1.3、文件类型：9位的权限位前面的标志号，表示文件的类型。1

2016-03-03 18:21:40 615

转载 java程序运行机制的简单梳理

根据圣骑士大牛的博文进行简单的梳理，更详细的内容在：http://www.cnblogs.com/mengdd/p/3561867.html一、JVM的生命周期介绍：当启动一个java程序时，一个JVM实例就诞生；当这个java程序关闭时，则这个JVM实例就随着消亡。可以理解为，JVM的生命周期就是java程序的执行过程。如果一台机器上同时运行多个java程序，将

2016-03-02 17:53:38 955

转载大数据时代，我们应该具有怎样的思维方式？

大数据时代，我们应该具有怎样的思维方式？原文网址：http://www.jianshu.com/p/6c48fa2c8870《飘》、《汤姆叔叔的小屋》之类的小说和故事在全社会激起的是强烈的“情感”共鸣，和故事相比，数据没有情节，它仅代表客观事实，数据激发的，更多的是理性思考。作为理性的人类，我们不会仅仅满足于感情的宣泄，而是希望通过数据掌握更多的事实，进行理性思考。在当

2016-03-02 15:16:34 2909

原创 Java中接口的粗浅理解

用interface来声明一个接口，interface的地位相当于class，声明时把class替换成interface就可以。接口不能进行实例化，就是说不能通过new操作，但却可以声明接口变量，接口变量必须指定实现了接口的类。接口方法：接口中的所有方法都是抽象方法（不需要实现），一般情况下缺省abstract。接口方法缺省访问控

2016-03-02 14:05:42 612

原创 java中抽象类的粗浅理解

抽象类的出现，在于建立一种约定的机制。约定的机制通过抽象方法来实现，由实现子类进行方法的实现。说白了就是对一组对象（类）进行高层级的抽象，形成一个高层级抽象类，通过这个高层级的抽象类，来约定这组对象的行为。

2016-03-02 12:22:22 830

原创 Java中多态的粗浅见解

面向对象有三大特性：封装、继承、多态。本文简单谈一下对多态的粗浅理解。实现多态的技术称为动态绑定，是指在执行期间，根据引用对象的实际类型，调用相应的方法。也是就说，多态是运行期的行为，不是编译期的行为。多态存在的3个必要性： 1、要有继承；Child继承Parent类； 2、要有重写；Child类中存在与Parent类同名同参数的

2016-03-02 10:58:57 783

原创 Hadoop原理之数据完整性

Hadoop的数据完整性，包括两个方面：一是，数据传输的完整性，也就是读写数据的完整性；二是，数据存储的完整性。受网络不稳定、硬件损坏等因素，在数据传输和数据存储上，难免会出现数据丢失或脏数据，数据传输的量越大，出现错误的概率就越高。hadoop提供了一种“校验和”的机制来检测数据的完整性

2016-03-01 22:52:06 2120

原创 hadoop优化之 Archive 归档工具使用

Hadoop并不擅长对小型文件的储存，原因取决于Hadoop文件系统的文件管理机制，Hadoop的文件存储的单元为一个块（block），block的数据存放在集群中的datanode节点上，由namenode对所有datanode存储的block进行管理。namenode将所有block的元数据存放在内存中，以方便快速的响应客户端的请求。那么问题来了，不管一个文件有多小，Hadoop都把它视为一个block，大量的小文件，将会把namenode的内存耗尽。那么如何对大量的小文件进行有效的处理呢？

2016-03-01 22:25:21 6279 1

Veechange的博客