2014年06月_xiao_jun_0820

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创导入tsv文件到hbase

1、将文件放到hdfshadoop fs -put ./hly.tsv /user/amy/input/2、使用如下命令importtsv 直接导入方式：hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=',' -Dimporttsv.columns=HBASE_

2014-06-27 13:53:27 3928

原创修改 hadoop 集群及hbase集群的pid文件存放位置

今天准备把hbase集群和hadoop集群停了做一些配置调整，结果运行stop-all.sh的时候无法停止集群，都提示no datanode,no namenode等等之类的信息，于是我翻看了一下stop-all.sh stop-dfs.sh,stop-yarn.sh脚本，发现原理都是通过一个pid文件来停止集群的。这些进程的pid文件默认都是保存在系统的/tmp目录下面，系统每个一段时间

2014-06-27 09:48:53 17990 1

原创 hive 学习笔记

创建数据库 create database if not exists besttone;创建简单表：create table userinfo(id int,name string,age int,province string) row format delimited fields terminated by '\t';导入简单表：load data local

2014-06-20 16:21:14 3382

转载 Hive 数据倾斜总结

几个比较特殊的点都提到了，大家可以作为参考。在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量

2014-06-20 11:04:37 1126

转载 Hive几种数据导出方式

谈到了Hive中几种数据的导入方式，不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样，将这些方式分为三种：（1）、导出到本地文件系统；（2）、导出到HDFS中；（3）、导出到Hive的另一个表中。为了避免单纯的文字，我将一步一步地用命令进行说明。　　一、导出到本地文件系统　　hive> insert overwrite loca

2014-06-19 15:03:31 76975 5

原创 hive 执行查询报找不到hive-builtins-0.10.0-cdh4.3.0.jar

今天执行hive带条件的查询select * from userinfo where province='江西',结果报错：java.io.FileNotFoundException: File does not exist: hdfs://master24:9000/home/hadoop/hive-0.10.0-cdh4.2.2/lib/hive-builtins-0.10.0-cdh4.2.

2014-06-19 13:24:17 1710 1

原创 hive mysql 中文乱码问题研究。

首先mysql 字符集修改1：[client] 下面增加：default-character-set = utf82：[mysqld]下面增加：character-set-server = utf83：[mysql] 下面增加：default-character-set = utf84:重启mysql数据库：service mysqld restart

2014-06-18 16:26:54 4700

原创 hive 安装

前提：安装好mysql;

2014-06-16 19:01:05 789

转载安装mysql

（1） -------------预备工作---------- 1：假如下载的文件名为：mysql-5.0.45.tar.gz 2：假如copy到 /home下 3：groupadd mysql #添加mysql组 4：useradd -g mysql mysql #添加一个mysql用户

2014-06-16 15:21:33 631

转载 Linux下安装mysql-5.6.4

在开始安装前，先说明一下mysql-5.6.4与较低的版本在安装上的区别，从mysql-5.5起，mysql源码安装开始使用cmake了，因此当我们配置安装目录./configure --perfix=/.....的时候和以前的会有些区别，这点我们稍后会提到。相关阅读：MySQL 5.6.4 M7 发布 http://www.linuxidc.com/Linux/2011-12/49807

2014-06-16 15:20:30 2903

原创如何查找和查看自定义coprocessor中打印的日志信息

比如查找自定义的RegionObserver cp,首先得知道哪些region会

2014-06-13 16:32:36 1200

转载 Hadoop　MapReduce原理

先看一段代码：　　package com.abc;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Pa

2014-06-13 09:48:05 822

转载华为的二级索引方案

这个是华为的二级索引方案，已经开放源代码了,下面是网上的一篇讲解原理的帖子，发出来和大家共享一下。经过本人认真阅读了一下代码，发现这个源码仅供参考，想要集成到原有的集群当中是有点儿难度的，它对hbase的源码进行不少的修改。源码地址：https://github.com/Huawei-Hadoop/hindex下面来对其方案做一个分析。1.整体架构这个架构在Client Ext中设定索引细节，在B

2014-06-12 15:59:01 3165

原创 hbase 顺序序列rowkey设计

import org.apache.hadoop.hbase.util.Bytes;import org.apache.hadoop.hbase.util.MD5Hash;public class SequenceIdRowKeyHash { /** * @param args */ public static void main(String[] args) { // T

2014-06-12 14:38:05 5136 2

转载 hbase学习记录之scan

hbase学习记录之scan1.scan类似于一般数据库的游标(cursor)，可以提供顺序的读。2.scan的结果集为[start,end)，这个需要注意3.scan的setCaching设置的值为每次rpc的请求记录数，默认是1，应该设置的大一些，hbase的例子设置是500，该设置选项可以通过hbase的配置 hbase.client.scanner.caching

2014-06-12 09:46:52 1724

转载 hbase配置文件同步

HDFS和Hbase配置同步hbase的配置中有一些和hdfs关联的配置，当hdfs中修改了，但是hbase中修改了，hbase中是不会知道的，比如dfs.replication，有时候我们想增加备份的数量，在hdfs中设置为5了，但是hbase中默认为3，这样hbase还是只保存3份。那么有什么方法可以使他们的配置文件同步，有三种方法：（1）在hbase-env.sh的H

2014-06-12 09:18:26 2153

原创对hbaseadmin.balancer()的一些理解

今天测试用hbaseadmin.split手动对region进行拆分。

2014-06-05 17:26:55 3420

原创如何执行hbase 的mapreduce job

执行hbase mapreduce的两种方法：1 使用hadoop命令执行mapreduce job. 采用此方式需要修改hadoop-env.sh,将hbase相关的jar包加入到HADOOP_CLASSPATH中去，写法如下： export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/hbase-0.94.2-cdh4.2.

2014-06-05 16:10:02 5421

转载 hbase 表数据迁移

1 CopyTable 工具用法：CopyTable is a utility that can copy part or of all of a table, either to the same cluster or another cluster. The target table must first exist. The usage is as follows:$ bin/h

2014-06-05 14:07:02 6993

转载 HBase hbck——检察HBase集群的一致性

HBase提供了hbck命令来检查各种不一致问题。hbck的名字仿效了HDFS的fsck命令，后者是一个用于检查HDFS中不一致问题的工具。下面这段非常易懂的介绍出自于hbck的源程序。检查数据在Master及RegionServer的内存中状态与数据在HDFS中的状态之间的一致性。 HBase的hbck不仅能够检查不一致问题，而且还能够修复不一致问题。

2014-06-05 11:14:36 22954

原创新旧版本FileInputFormat获得输入分片的不同

有接触过hadoop的都应该清楚InputFormat

2014-06-03 14:22:02 1352

我的windows系统的nc工具

windows系统的nc工具，类似于linux上的nc。 nc.exe -l -p 9999，监听9999端口

2018-04-02

kafka-manager

kafka-manager最新编译可运行包

2015-05-19

jsonserde.jar

hive json 序列化与反序列化工具类q

2014-11-16

wordcount.jar

mapreduce

2014-10-22

delphi写的DLL子窗体生成为主程序的TabSheet

delphi写的DLL子窗体生成为主程序的TabSheet,主程序调用DLL来生成窗体，并把窗体变成主程序上的一个TabSheet,这样更利于模块化分工开发，目前我们ERP项目就是采用这种客户端架构，本例只是粗略的描述下这个功能。提供给读者广泛的想象空间，可以自己去发挥

2008-09-26

Dephi写的用IdUDP实现的P2P聊天软件

自己用IdUdp写的一个聊天工具，比较粗糙，基本的一些聊天的功能都有了，可能代码还有点乱,delphi 7 在WIN XP系统中测试通过，如果在同一电脑上运行两个客户端，请把Listen的2008端口改一改，否则会报错，说2008端口已占用