自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (7)
  • 收藏
  • 关注

原创 导入tsv文件到hbase

1、将文件放到hdfshadoop fs -put ./hly.tsv /user/amy/input/2、使用如下命令importtsv 直接导入方式:hbase org.apache.hadoop.hbase.mapreduce.ImportTsv  -Dimporttsv.separator=',' -Dimporttsv.columns=HBASE_

2014-06-27 13:53:27 3928

原创 修改 hadoop 集群及hbase集群的pid文件存放位置

今天准备把hbase集群和hadoop集群停了做一些配置调整,结果运行stop-all.sh的时候无法停止集群,都提示no datanode,no namenode等等之类的信息,于是我翻看了一下stop-all.sh stop-dfs.sh,stop-yarn.sh脚本,发现原理都是通过一个pid文件来停止集群的。这些进程的pid文件默认都是保存在系统的/tmp目录下面,系统每个一段时间

2014-06-27 09:48:53 17990 1

原创 hive 访问hbase表

首先创建外部表:

2014-06-25 14:24:15 2512

原创 hive 学习笔记

创建数据库 create database if not exists besttone;创建简单表:create table userinfo(id int,name string,age int,province string)  row format delimited fields terminated by '\t';导入简单表:load data local

2014-06-20 16:21:14 3382

转载 Hive 数据倾斜总结

几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量

2014-06-20 11:04:37 1126

转载 Hive几种数据导出方式

谈到了Hive中几种数据的导入方式,不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。  一、导出到本地文件系统  hive> insert overwrite loca

2014-06-19 15:03:31 76975 5

原创 hive 执行查询报找不到hive-builtins-0.10.0-cdh4.3.0.jar

今天执行hive带条件的查询select * from userinfo where province='江西',结果报错:java.io.FileNotFoundException: File does not exist: hdfs://master24:9000/home/hadoop/hive-0.10.0-cdh4.2.2/lib/hive-builtins-0.10.0-cdh4.2.

2014-06-19 13:24:17 1710 1

原创 hive mysql 中文乱码问题研究。

首先mysql 字符集修改1:[client] 下面增加:default-character-set = utf82:[mysqld]下面增加:character-set-server = utf83:[mysql] 下面增加:default-character-set = utf84:重启mysql数据库:service mysqld restart

2014-06-18 16:26:54 4700

原创 hive 安装

前提:安装好mysql;

2014-06-16 19:01:05 789

转载 安装mysql

(1)      -------------预备工作----------      1:假如下载的文件名为:mysql-5.0.45.tar.gz      2:假如copy到 /home下      3:groupadd mysql #添加mysql组      4:useradd -g mysql mysql #添加一个mysql用户     

2014-06-16 15:21:33 631

转载 Linux下安装mysql-5.6.4

在开始安装前,先说明一下mysql-5.6.4与较低的版本在安装上的区别,从mysql-5.5起,mysql源码安装开始使用cmake了,因此当我们配置安装目录./configure --perfix=/.....的时候和以前的会有些区别,这点我们稍后会提到。相关阅读:MySQL 5.6.4 M7 发布 http://www.linuxidc.com/Linux/2011-12/49807

2014-06-16 15:20:30 2903

原创 如何查找和查看自定义coprocessor中打印的日志信息

比如查找自定义的RegionObserver cp,首先得知道哪些region会

2014-06-13 16:32:36 1200

转载 Hadoop MapReduce原理

先看一段代码:  package com.abc;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Pa

2014-06-13 09:48:05 822

转载 华为的二级索引方案

这个是华为的二级索引方案,已经开放源代码了,下面是网上的一篇讲解原理的帖子,发出来和大家共享一下。经过本人认真阅读了一下代码,发现这个源码仅供参考,想要集成到原有的集群当中是有点儿难度的,它对hbase的源码进行不少的修改。源码地址:https://github.com/Huawei-Hadoop/hindex下面来对其方案做一个分析。1.整体架构这个架构在Client Ext中设定索引细节,在B

2014-06-12 15:59:01 3165

原创 hbase 顺序序列rowkey设计

import org.apache.hadoop.hbase.util.Bytes;import org.apache.hadoop.hbase.util.MD5Hash;public class SequenceIdRowKeyHash { /** * @param args */ public static void main(String[] args) { // T

2014-06-12 14:38:05 5136 2

转载 hbase学习记录之scan

hbase学习记录之scan1.scan类似于一般数据库的游标(cursor),可以提供顺序的读。2.scan的结果集为[start,end),这个需要注意3.scan的setCaching设置的值为每次rpc的请求记录数,默认是1,应该设置的大一些,hbase的例子设置是500,该设置选项可以通过hbase的配置 hbase.client.scanner.caching

2014-06-12 09:46:52 1724

转载 hbase配置文件同步

HDFS和Hbase配置同步hbase的配置中有一些和hdfs关联的配置,当hdfs中修改了,但是hbase中修改了,hbase中是不会知道的,比如dfs.replication,有时候我们想增加备份的数量,在hdfs中设置为5了,但是hbase中默认为3,这样hbase还是只保存3份。那么有什么方法可以使他们的配置文件同步,有三种方法:(1)在hbase-env.sh的H

2014-06-12 09:18:26 2153

原创 对hbaseadmin.balancer()的一些理解

今天测试用hbaseadmin.split手动对region进行拆分。

2014-06-05 17:26:55 3420

原创 如何执行hbase 的mapreduce job

执行hbase mapreduce的两种方法:1 使用hadoop命令执行mapreduce job.  采用此方式需要修改hadoop-env.sh,将hbase相关的jar包加入到HADOOP_CLASSPATH中去,写法如下:  export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/hbase-0.94.2-cdh4.2.

2014-06-05 16:10:02 5421

转载 hbase 表数据迁移

1 CopyTable 工具用法:CopyTable is a utility that can copy part or of all of a table, either to the same cluster or another cluster. The target table must first exist. The usage is as follows:$ bin/h

2014-06-05 14:07:02 6993

转载 HBase hbck——检察HBase集群的一致性

HBase提供了hbck命令来检查各种不一致问题。hbck的名字仿效了HDFS的fsck命令,后者是一个用于检查HDFS中不一致问题的工具。下面这段非常易懂的介绍出自于hbck的源程序。       检查数据在Master及RegionServer的内存中状态与数据在HDFS中的状态之间的一致性。       HBase的hbck不仅能够检查不一致问题,而且还能够修复不一致问题。   

2014-06-05 11:14:36 22954

原创 新旧版本FileInputFormat获得输入分片的不同

有接触过hadoop的都应该清楚InputFormat

2014-06-03 14:22:02 1352

我的windows系统的nc工具

windows系统的nc工具,类似于linux上的nc。 nc.exe -l -p 9999,监听9999端口

2018-04-02

kafka-manager

kafka-manager最新编译可运行包

2015-05-19

jsonserde.jar

hive json 序列化与反序列化工具类q

2014-11-16

wordcount.jar

mapreduce

2014-10-22

delphi写的DLL子窗体生成为主程序的TabSheet

delphi写的DLL子窗体生成为主程序的TabSheet,主程序调用DLL来生成窗体,并把窗体变成主程序上的一个TabSheet,这样更利于模块化分工开发,目前我们ERP项目就是采用这种客户端架构,本例只是粗略的描述下这个功能。提供给读者广泛的想象空间,可以自己去发挥

2008-09-26

Dephi写的用IdUDP实现的P2P聊天软件

自己用IdUdp写的一个聊天工具,比较粗糙,基本的一些聊天的功能都有了,可能代码还有点乱,delphi 7 在WIN XP系统中测试通过,如果在同一电脑上运行两个客户端,请把Listen的2008端口改一改,否则会报错,说2008端口已占用

2008-09-26

cd_catalog.xml

把这个文件导入到HTML页面

2007-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除