自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

司念

生命是一种长期而持续的累积过程

原创 Flume-ng spoolDir分布式日志收集目录监控

分布式数据收集flume-ng的spoolDir监控使用中的坑。。。。。

2015-03-31 16:50:55

阅读数 7518

评论数 0

转载 git命令

Git命令 git配置(config): git version # 查看版本 git config -l ...

2015-02-03 09:56:56

阅读数 562

评论数 0

转载 Flume-ng 1.5部署,hadoop联合使用

Flume1.5.0的安装、部署、简单应用(含伪分布式、与hadoop2.2.0、hbase0.96的案例) 目录:   一、什么是Flume?     1)flume的特点     2)flume的可靠性     3)flume的可恢复性     4)flume 的 一些...

2015-01-23 10:58:53

阅读数 693

评论数 0

原创 hadoop文件IO

hadoopIO相关

2015-01-19 17:47:03

阅读数 734

评论数 0

原创 sqoop安装和使用

sqoop的安装和使用

2015-01-13 14:55:22

阅读数 697

评论数 0

原创 Intellij IDEA下远程调试hadoop

IDEA中远程调试hadoop

2014-12-24 15:36:56

阅读数 8649

评论数 11

原创 编译hadoop-1.X源码

编译hadoop1.X源码

2014-12-23 15:24:57

阅读数 637

评论数 0

原创 经典topK问题

经典TopK问题

2014-12-12 17:37:15

阅读数 1128

评论数 0

原创 awk写shell分发脚本

awk配合写shell脚本,轻松分发到集群文件

2014-12-11 19:57:13

阅读数 867

评论数 0

原创 hdfs统计行数和统计文件大小

hdfs统计文件行数和文件大小命令

2014-12-10 10:49:43

阅读数 33533

评论数 0

原创 mysql错误代码

1016错误:文件无法打开,使用后台修复或者使用phpmyadmin进行修复。 1044错误:数据库用户权限不足,请联系空间商解决 1045错误:数据库服务器/数据库用户名/数据库名/数据库密码错误,请联系空间商检查帐户。 1054错误:程序文件跟数据库有冲突,请使用正确的程序文件上传上去覆...

2014-11-30 20:35:23

阅读数 594

评论数 0

原创 sql查找某个字段在某张表中

SELECT TABLE_SCHEMA AS 'DB_NAME',TABLE_NAME AS `表名` FROM information_schema.COLUMNS WHERE COLUMN_NAME='COLUMN_NAME'

2014-11-30 20:29:01

阅读数 1047

评论数 0

原创 hadoop多文件输出

hadoop多文件输出

2014-11-20 11:23:24

阅读数 1102

评论数 0

原创 向HDFS中追加内容

向hdfs中追加内容

2014-11-16 10:23:55

阅读数 3131

评论数 0

原创 hadoop复合键排序使用方法

hadoop复合键排序

2014-10-29 18:59:35

阅读数 1084

评论数 0

原创 java操作hdfs到数据库或者缓存

javaAPI操作hdfs存入redis中

2014-10-27 18:51:50

阅读数 1058

评论数 0

原创 hadoop集群中动态增加新的DataNode节点

在现有hadoop集群中动态增加新的节点

2014-10-27 15:55:15

阅读数 2320

评论数 0

原创 Hadoop加载自有资源文件

hadoop中加载自有xml资源的方法

2014-10-23 13:10:37

阅读数 1662

评论数 0

原创 Map的输出进行LZO压缩

1、先到这里下载 http://www.oberhumer.com/opensource/lzo/ lzo的最新发布版 2、配置 ./configure –enable-shared –prefix /usr/local/lzo-2.06 3、安装 make && su...

2014-10-17 11:33:43

阅读数 594

评论数 0

原创 hadoop中安装hive的流程

hive是hadoop中一个很好的工具,如果感觉能用的着

2014-10-15 14:42:18

阅读数 740

评论数 0

原创 hadoop无法启动DataNode问题

hadoop中无法启动DataNode守护进程

2014-10-15 14:29:21

阅读数 772

评论数 0

原创 hive无法连接数据库问题

今天在hadoop集群上安装hive,吐槽一下,hive就是

2014-10-15 14:28:51

阅读数 2364

评论数 0

原创 hadoop版本兼容问题

测试环境使用的是hadoop2.2.0   线上环境1.0.3    编写程序如下:

2014-10-15 14:03:29

阅读数 692

评论数 0

原创 hive安装与运行问题

今天学习hive  安装之后,发现可以create table,但是没法drop table

2014-10-09 17:41:34

阅读数 400

评论数 0

原创 编译hadoop2x插件

一直在用hadoop1.0.3的版本,最近测试上安装hadoop2.2.0版本,很想试用Eclipse集成hadoop2.2.0版本,发现原来在1.0.3的版本中的插件无法识别hadoop2.2.0的根目录,想想也是,2x的hadoop版本已经将目录彻底改变了,用的是yarn。在网上搜了一些方法,...

2014-10-08 19:10:43

阅读数 609

评论数 0

原创 org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container

今天在hadoop2.2.0版本上运行1.0.3的mr程序,起初以

2014-09-30 15:31:48

阅读数 2556

评论数 0

原创 Linux命令

今天使用hadoop时发现查看本机ip时无法使用 提示没有该命令 首先查看了Linux的版本号 uname -a  查看内核版本 接着查看Linux的版本 lsb_release -a   发现时CentOS 使用ifconfig时提示没有该命令   这时决定使用管理员权限 s...

2014-09-30 12:10:16

阅读数 654

评论数 0

原创 MapReduce单元测试(MRUnit测试)

正常情况下编写的MapReduce程序需要上传到服务器才能检验器正确性,但是受限于环境的影响,测试MR程序变得非常困难,现在使用 MRUnit Tutorial 让测试变得更加简单。 ok,不再废话,直接上链接和代码: 如果你使用maven管理项目,在你的pom.xml文件添加以下依赖项即可...

2014-09-30 11:14:58

阅读数 1131

评论数 0

转载 Hadoop性能调优

Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。 一 应用程序编写规范 1.设置Combiner         对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有...

2014-09-29 09:54:44

阅读数 539

评论数 0

转载 Hadoop Mapreduce原理

Hadoop是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。 HDFS是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据...

2014-09-29 09:37:22

阅读数 484

评论数 0

转载 HDFS体系结构

Hdfs体系结构:三个进程(namenode,datanode, secondary namenode)   Hdfs(hadoopdistributed filesystem)是hadoop的核心子项目,是分布式存储,它是基于流数据模式的访问和处理超大文件。(分布式最大的好处就是其通...

2014-09-29 09:34:31

阅读数 416

评论数 0

转载 Hadoop自定义可序列化的类

在hadoop框架中实现自定义类可以被序列化。 [java] view plaincopy package com.rpc.nefu;      import java.io.DataInput;   import java.io.Data...

2014-09-29 09:31:57

阅读数 981

评论数 0

转载 HDFS文件操作

hdfs 文件操作,使用FileSystem里提供的方法实现。代码: [java] view plaincopy package hdfs.fs.nefu;      import java.io.IOException;   import org...

2014-09-29 09:31:24

阅读数 779

评论数 0

转载 Hadoop单表与多表关联

在单表关联和多表关联的应用的时候,需要从数据里面挖掘出信息来进行操作。 例子给出 孩子和父母的表 输出孩子和爷爷的表 数据如下: 亲人表 child parent tom jerem tom lucy jerem xd ...

2014-09-29 09:30:38

阅读数 611

评论数 0

转载 Ubuntu下搭建Hadoop2.2.0

目录(?)[+] 一、准备工作: 集群安装ubuntu12.04 64bit系统,配置各结点IP地址 开启ssh服务,方便以后远程登录,命令sudo apt-get install openssh-server(无需重启) 使用命令:ssh ...

2014-09-29 09:27:10

阅读数 426

评论数 0

转载 Hadoop(四)组合式MapReduce任务

在实际的应用中,很多的复杂任务都是不止一趟的mapreduce任务,需要查分成多个简单的mapreduce子任务去完后。 (1)迭代的计算任务。 (2)顺序组合MapReduce作业 (3)具有依赖关系的组合式mapreduce作业 (4)mapreduce前处理和后处理步...

2014-09-29 09:24:02

阅读数 583

评论数 0

转载 Hadoop(三)自定义combiner和partitioner

Hadoop提供了缺省的Partition来完成map的输出向reduce分发处理。有时也需要自定义partition来将相同key值的数据分发到同一个reduce处理,为了减少map过程输出的中间结果键值对的数量,降低网络数据通信开销,用户也可以自定制combiner过程。 自定制Part...

2014-09-29 09:23:04

阅读数 666

评论数 0

转载 Hadoop(二)自定义输出

Hadoop提供了较为丰富的数据输入输出格式,可以满足很多的设计实现,但是在某些时候需要自定义输入输出格式。 数据的输入格式用于描述MapReduce作业的数据输入规范,MapReduce框架依靠数据输入格式完后输入规范检查(比如输入文件目录的检查),对数据文件进行输入分块(InputSpi...

2014-09-29 09:21:18

阅读数 1202

评论数 0

转载 Hadoop(一)复合键

目录(?)[+] 简介: 在大数据处理的基本方法上,对于相互间计算的依赖性不大的数据,mapreduce采用分治的策略进行处理,将大的问题划分成小的问题进行求解,使得问题变得简单可行,同时在处理问题上面,MapReduce框架隐藏了很多的处理细节,将数据切分,任务调度,数据通信,容...

2014-09-29 09:04:19

阅读数 432

评论数 0

转载 Eclipse快捷键

Eclipse默认快捷键配置 Ctrl+1快速修复 Ctrl+D: 删除当前行  Ctrl+Alt+↓ 复制当前行到下一行(复制增加) Ctrl+Alt+↑ 复制当前行到上一行(复制增加) Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了) Alt+↑ 当前...

2014-09-29 09:03:06

阅读数 348

评论数 0

提示
确定要删除当前文章?
取消 删除