自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(15)
  • 收藏
  • 关注

原创 hive建表语法中的分隔符设定

FIELDS TERMINATED BY:设置字段与字段之间的分隔符COLLECTION ITEMS TERMINATED BY:设置一个复杂类型(array,struct)字段的各个item之间的分隔符MAP KEYS TERMINATED BY:设置一个复杂类型(Map)字段的key value之间的分隔符LINES TERMINATED BY:设置行与行之间的

2015-12-22 10:29:53 4999

转载 kafka配置文件主要配置

####################### System唯一标识在集群中的ID,要求是正数。broker.id=0服务端口,默认9092port=9092监听地址,不设为所有地址host.name=debugo01处理网络请求的最大线程数num.network.threads=2处理磁盘I/O的线程数num.io.threads=8一些后台线程数background.threads = 4等待I

2015-11-13 15:07:49 406

原创 flume-ng与kafka整合

一) 安装好flume-ng集群(四台cdh2,cdh3,cdh4 172.17.199.107为远程日志文件所在的主机)二) 安装好kafka集群(三台cdh1,cdh2,cdh3)三) 自定义flume kafka sink,打jar包放到flume安装目录的lib目录下四) 配置flume-ng的配置文件 Cdh2的配置文件fm_kfk.conf如下: producer.sour

2015-11-13 15:01:31 668

转载 Kafka文件存储机制

1.Kafka文件存储机制 Kafka部分名词解释如下: • Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群。 • Topic:一类消息,例如page view日志、click日志等都可以以topic的形式存在,Kafka集群能够同时负责多个topic的分发。 • Partition:topic物理上的分组,一

2015-11-13 14:35:37 282

原创 flume-ng的channe配置type=file例子

my_agent.channels.my_channel_1.type = filemy_agent.channels.my_channel_1.checkpointDir = /home/work/flume/file-channel/my_channel_1/checkPointmy_agent.channels.my_channel_1.useDualCheckp

2015-11-04 14:25:57 332

原创 flume-ng开发自己的source两种方法

第一种方法;继承AbstractSource抽象类并实现EventDrivenSource,Configurable接口:代码如下:import org.apache.flume.conf.Configurable;import org.apache.flume.source.AbstractSource;public class TailSource extendsA

2015-11-02 09:51:03 296

转载 flume-ng与flume-og的区别

Cloudera 开发的分布式日志收集系统 Flume,是 hadoop 周边组件之一。其可以实时的将分布在不同节点、机器上的日志收集到 hdfs 中。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在

2015-10-30 10:19:21 522

转载 Flume 1.4.0 NG 分布式集群搭建

最近使用Flume1.4 做日志收集,分享一下具体的集群环境配置搭建。其中使用到了3台机器, hadoop  192.168.80.100   hadoop1  192.168.80.101    hadoop2   192.168.80.102 ,  将 hadoop  和 hadoop2 机器上面指定的flume 监控到的文件夹中产生的日志文件通过 agent 汇集到 hadoop1 机器

2015-10-30 10:13:27 279

原创 textfile转换成rcfile,parquet,hfile

一、textfile转换成rcfile    通过hive实现    1.1在hive创建表    create table tablename(s string,x string,y string,a double,b double);    1.2然后load data本地textfile    load data local inpath '本地路径的textfile'

2015-10-16 13:16:17 1760

原创 通过MapReduce程序实现对hbase表数据的插入

import java.io.File;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apach

2015-10-16 13:11:12 330

原创 impala表使用rcfile,sequencefile和parquet

impala表使用rcfile文件格式一、在impala中创建rcfile表    create table rcfile_table (column_specs) stored as rcfile;    或者    create table rcfile_table like some_other_table stored as rcfile;二、在hive中导入数据到rc

2015-10-16 13:07:36 687

原创 sqoop从mysql数据库导入数据到hdfs中

从mysql数据库导入数据到hdfs一般导入sqoop import --connect jdbc:mysql://172.17.199.14:3306/ -username bank -password bank --table tt追加导入sqoop import --connect jdbc:mysql://172.17.199.14:3306/ -username ba

2015-10-16 13:06:11 234

原创 impala测试

一、hdfs上的txt文件数据导入impala表中进行查询    1.1在impala创建表    create table impala_hive_table(rank_id stirng,bank_id string,bank_name string,area_id double,bank_type double);    或者是在hive创建表    create table

2015-10-16 13:05:01 409

原创 mysql数据导入hive和hbase

一、把mysql数据库的表导出为txt文本文件    select * from tablename into outfile "/filename.txt";二、在hive中创建对应的表    create table hive_table (column1 string,column2 string);三、把filename.txt文件导入hive表    load dat

2015-10-16 13:02:00 244

原创 jdbc连接impala

jdbc连接impala例子

2015-10-16 12:31:09 775

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除