青木德林-CSDN博客

原创 Flume-ng spoolDir分布式日志收集目录监控

分布式数据收集flume-ng的spoolDir监控使用中的坑。。。。。

2015-03-31 16:50:55 8800

转载 git命令

Git命令git配置（config）：git version # 查看版本git config -l # 查看当前配置git config --global user.name "Dean"

2015-02-03 09:56:56 767

转载 Flume-ng 1.5部署，hadoop联合使用

Flume1.5.0的安装、部署、简单应用(含伪分布式、与hadoop2.2.0、hbase0.96的案例)目录：　　一、什么是Flume?　　　　1)flume的特点　　　　2)flume的可靠性　　　　3)flume的可恢复性　　　　4)flume 的一些核心概念　　二、flume的官方网站在哪里？　　三、在哪里下载？　　四、如何安装？　　

2015-01-23 10:58:53 902

原创 hadoop文件IO

hadoopIO相关

2015-01-19 17:47:03 942

原创 sqoop安装和使用

sqoop的安装和使用

2015-01-13 14:55:22 899

原创 Intellij IDEA下远程调试hadoop

IDEA中远程调试hadoop

2014-12-24 15:36:56 11383 1

原创编译hadoop-1.X源码

编译hadoop1.X源码

2014-12-23 15:24:57 805

原创经典topK问题

经典TopK问题

2014-12-12 17:37:15 1490

原创 awk写shell分发脚本

awk配合写shell脚本，轻松分发到集群文件

2014-12-11 19:57:13 1069

原创 hdfs统计行数和统计文件大小

hdfs统计文件行数和文件大小命令

2014-12-10 10:49:43 51146

原创 mysql错误代码

1016错误：文件无法打开，使用后台修复或者使用phpmyadmin进行修复。1044错误：数据库用户权限不足，请联系空间商解决1045错误：数据库服务器/数据库用户名/数据库名/数据库密码错误，请联系空间商检查帐户。1054错误：程序文件跟数据库有冲突，请使用正确的程序文件上传上去覆盖。1146错误：数据表缺失,请恢复备份数据.看看你的数据库路径端口地址都对不对，是不

2014-11-30 20:35:23 821

原创 sql查找某个字段在某张表中

SELECT TABLE_SCHEMA AS 'DB_NAME',TABLE_NAME AS `表名` FROM information_schema.COLUMNS WHERE COLUMN_NAME='COLUMN_NAME'

2014-11-30 20:29:01 1773

原创 hadoop多文件输出

hadoop多文件输出

2014-11-20 11:23:24 1457

原创向HDFS中追加内容

向hdfs中追加内容

2014-11-16 10:23:55 4877

原创 hadoop复合键排序使用方法

hadoop复合键排序

2014-10-29 18:59:35 1364

原创 java操作hdfs到数据库或者缓存

javaAPI操作hdfs存入redis中

2014-10-27 18:51:50 1408

原创 hadoop集群中动态增加新的DataNode节点

在现有hadoop集群中动态增加新的节点

2014-10-27 15:55:15 3300

原创 Hadoop加载自有资源文件

hadoop中加载自有xml资源的方法

2014-10-23 13:10:37 2241

原创 Map的输出进行LZO压缩

1、先到这里下载 http://www.oberhumer.com/opensource/lzo/ lzo的最新发布版2、配置 ./configure –enable-shared –prefix /usr/local/lzo-2.063、安装 make && sudo make install 4、按照传统所有的liblzo*往/usr/lib下拷一份接下来编译

2014-10-17 11:33:43 837

原创 hadoop中安装hive的流程

hive是hadoop中一个很好的工具，如果感觉能用的着

2014-10-15 14:42:18 959

原创 hadoop无法启动DataNode问题

hadoop中无法启动DataNode守护进程

2014-10-15 14:29:21 988

原创 hive无法连接数据库问题

今天在hadoop集群上安装hive，吐槽一下，hive就是

2014-10-15 14:28:51 3812

原创 hadoop版本兼容问题

测试环境使用的是hadoop2.2.0 线上环境1.0.3 编写程序如下：

2014-10-15 14:03:29 1759

原创 hive安装与运行问题

今天学习hive 安装之后，发现可以create table，但是没法drop table

2014-10-09 17:41:34 548

原创编译hadoop2x插件

一直在用hadoop1.0.3的版本，最近测试上安装hadoop2.2.0版本，很想试用Eclipse集成hadoop2.2.0版本，发现原来在1.0.3的版本中的插件无法识别hadoop2.2.0的根目录，想想也是，2x的hadoop版本已经将目录彻底改变了，用的是yarn。在网上搜了一些方法，也没找到系统的教程，一下是自己弄的已经成功。最主要的是自带的那个release插件不好使...

2014-10-08 19:10:43 728

原创 org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container

今天在hadoop2.2.0版本上运行1.0.3的mr程序，起初以

2014-09-30 15:31:48 2937

原创 Linux命令

今天使用hadoop时发现查看本机ip时无法使用提示没有该命令首先查看了Linux的版本号uname -a 查看内核版本接着查看Linux的版本lsb_release -a 发现时CentOS使用ifconfig时提示没有该命令这时决定使用管理员权限su 和su - 都需要密码艹只能冒充管理员调用没有加密的命令 sbin/ifcon

2014-09-30 12:10:16 753

原创 MapReduce单元测试（MRUnit测试）

正常情况下编写的MapReduce程序需要上传到服务器才能检验器正确性，但是受限于环境的影响，测试MR程序变得非常困难，现在使用MRUnit Tutorial 让测试变得更加简单。ok，不再废话，直接上链接和代码：如果你使用maven管理项目，在你的pom.xml文件添加以下依赖项即可，这里区分Hadoop1和Hadoop2版本Using from Maven add depend

2014-09-30 11:14:58 1536

转载 Hadoop性能调优

Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一应用程序编写规范1.设置Combiner 对于一大批MapReduce程序，如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果，从而减少各个Reduce Task的

2014-09-29 09:54:44 706

转载 Hadoop Mapreduce原理

Hadoop是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB 级）的大文件（通常超过64M），其原理如下图所示：采用M

2014-09-29 09:37:22 669

转载 HDFS体系结构

Hdfs体系结构：三个进程（namenode,datanode, secondary namenode） Hdfs(hadoopdistributed filesystem)是hadoop的核心子项目，是分布式存储，它是基于流数据模式的访问和处理超大文件。(分布式最大的好处就是其通透性，虽然分布存在不同的datanode上面，但是感觉在一台电脑的本地进行操作)。Tips：

2014-09-29 09:34:31 559

转载 Hadoop自定义可序列化的类

在hadoop框架中实现自定义类可以被序列化。[java] view plaincopypackage com.rpc.nefu; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; impor

2014-09-29 09:31:57 1328

转载 HDFS文件操作

hdfs 文件操作，使用FileSystem里提供的方法实现。代码：[java] view plaincopypackage hdfs.fs.nefu; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.ap

2014-09-29 09:31:24 1078

转载 Hadoop单表与多表关联

在单表关联和多表关联的应用的时候，需要从数据里面挖掘出信息来进行操作。例子给出孩子和父母的表输出孩子和爷爷的表数据如下：亲人表childparenttomjeremtomlucyjeremxdlucyhongtonjackjcterryjcjc

2014-09-29 09:30:38 836

转载 Ubuntu下搭建Hadoop2.2.0

目录(?)[+]一、准备工作：集群安装ubuntu12.04 64bit系统,配置各结点IP地址开启ssh服务，方便以后远程登录，命令sudo apt-get install openssh-server(无需重启)使用命令：ssh hadoop@192.168.0.125测试服务连接是否正常设置无密钥登录：修改主

2014-09-29 09:27:10 570

转载 Hadoop（四）组合式MapReduce任务

在实际的应用中，很多的复杂任务都是不止一趟的mapreduce任务，需要查分成多个简单的mapreduce子任务去完后。（1）迭代的计算任务。（2）顺序组合MapReduce作业（3）具有依赖关系的组合式mapreduce作业（4）mapreduce前处理和后处理步骤的链式执行迭代的计算任务：PageRank算法。顺序组合：多个map

2014-09-29 09:24:02 749

转载 Hadoop（三）自定义combiner和partitioner

Hadoop提供了缺省的Partition来完成map的输出向reduce分发处理。有时也需要自定义partition来将相同key值的数据分发到同一个reduce处理，为了减少map过程输出的中间结果键值对的数量，降低网络数据通信开销，用户也可以自定制combiner过程。自定制Partition过程：在mapreduce中，partition用于决定Map节点输出将被分到哪个R

2014-09-29 09:23:04 864

转载 Hadoop（二）自定义输出

Hadoop提供了较为丰富的数据输入输出格式，可以满足很多的设计实现，但是在某些时候需要自定义输入输出格式。数据的输入格式用于描述MapReduce作业的数据输入规范，MapReduce框架依靠数据输入格式完后输入规范检查（比如输入文件目录的检查），对数据文件进行输入分块（InputSpilt）以及提供从输入分快中将数据逐行的读出，并转换为Map过程的输入键值对等功能。Hadoop提供了很

2014-09-29 09:21:18 1612

转载 Hadoop（一）复合键

目录(?)[+]简介：在大数据处理的基本方法上，对于相互间计算的依赖性不大的数据，mapreduce采用分治的策略进行处理，将大的问题划分成小的问题进行求解，使得问题变得简单可行，同时在处理问题上面，MapReduce框架隐藏了很多的处理细节，将数据切分，任务调度，数据通信，容错，负载均衡.....交给了系统负责，对于很多问题，只需要采取框架的缺省值完成即可，用户只需完成设计m

2014-09-29 09:04:19 770

转载 Eclipse快捷键

Eclipse默认快捷键配置Ctrl+1快速修复Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针

2014-09-29 09:03:06 430

android开发入门之路

android中文翻译组全集（API中文版）

android开发入门教程（上）

android开发入门教程（下）

空空如也