自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

转载 HBase快照

什么是快照 快照就是一份元信息的合集,允许管理员恢复到表的先前状态,快照不是表的复制而是一个文件名称列表,因而不会复制数据。 完全快照恢复是指恢复到之前的“表结构”以及当时的数据,快照之后发生的数据不会恢复。快照就是一系列元数据信息集合,能够允许管理员将表恢复至生成快照时的状态。快照不是表...

2016-11-10 11:53:00 841

转载 hbase启动regionserver出现端口冲突

但是实际上 使用start-hbase.sh 脚本启动regionserver还是会报端口冲突问题,可能通过这个脚本启动程序存在问题。没有深究看源码。 该问题可以通过 使用单独的regionserver启动脚本程序启动regionserver来规避。 使用方法: bin/local-reg...

2016-11-09 14:57:00 582

转载 hbase启动 Could not find or load main class .usr.java.packages.lib.amd64:.usr.lib64:.lib64:

hbase启动的时候,提示找不到usr.java.packages.lib.amd64:.usr.lib64:.lib64 从提示可以看出来,hbase貌似找什么平台相关的二进制文件等等。看起来,像是java.library.path问题 看hbase启动命令脚本: 这里面从hado...

2016-11-09 14:53:00 601

转载 004 Nginx日志管理

每个虚拟主机,可以配置access_log来记录日志信息。不同的sever可以有不同的log access_log logs/host.access.log main 格式main。可以自定义其他格式。在http段可以自定义日志格式,例如,log_format main xxx...

2016-08-13 17:50:00 106

转载 003 Nginx虚拟主机配置

子进程个数,worker_processes ,个数等于CPU数*核数 Event{ worker_connectioins 设置一个子进程最大允许多少个连接} http{}段中的server是虚拟主机配置 listen 监听端口,80端口访问时候可以省略。 se...

2016-08-13 17:22:00 83

转载 002 Nginx信号

启动nginx之后,如果想平滑的停止,等操作,如何处理?通过信号。 nginx分成master进程和多个子进程,主进程不想用浏览器请求,而是管理和控制多个子进程, kill -INT 主进程pid 则杀死所有nginx进程。 TERM, INT 是紧急杀死nginx进程 QUIT 优...

2016-08-13 16:44:00 109

转载 001 Nginx的编译安装

wget下载 tar解压 yum install pcre pcre-dev, nginx依赖pcre实现重写 进去解压后目录 configure --prefix=/usr/local/nginx 指定安装目录 make && make install ...

2016-08-13 16:07:00 86

转载 Git安装

yum install git 编译安装的步骤是【4】: (1)首先先更新系统 sudo yum update (2)安装依赖的包 sudo yum install curl-devel expat-devel gettext-devel openssl-devel zlib-...

2016-07-27 14:48:00 102

转载 Heka编译安装

官方文档:http://hekad.readthedocs.io/en/v0.10.0/installing.html Prerequisites (all systems): CMake 3.0.0 or greaterhttp://www.cmake.org/cmake/...

2016-07-27 14:29:00 336

转载 让Heka支持lua的io操作和os操作

Heka本身编译之后,不支持lua的io操作,貌似是影响什么sandbox机制。详情,https://mail.mozilla.org/pipermail/heka/2015-November/000882.html。 Hrm. There's a *lot* of code and com...

2016-07-26 16:18:00 123

转载 Heka同一个文件滚动读取rolling read FilePollingInput

针对一个文件,周期性质的去读取内容,无buffer的读取,典型应用 1,内存使用情况读取 [hekad] maxprocs = 2 [MemStats] type = "FilePollingInput" ticker_interval = 1 file_path = "/proc/me...

2016-07-22 18:33:00 165

转载 Heka的一些计算过程数据存放目录

默认位置: /var/cache/hekad 包括读取kafka的offsets存储等等 转载于:https://my.oschina.net/weikan/blog/716358...

2016-07-22 18:23:00 124

转载 一个input配置多个decorder,生成多分数据,放到不同的地方,即一份数据,以不同的形式存储...

继续使用nginx input的例子。 decoder本省之间无法传递数据,但是可以多个同时被一个input使用,进而实现一份数据产生多个结果。 MultiDecoder 可以实现多个 [hekad] maxprocs = 2 #一个输入,读取nginx的log [TestWe...

2016-07-22 17:24:00 293

转载 Heka nginx input

负责解析nginx产生的log数据,分成access,error等不同的日志数据格式。这里只例举出access的日志数据。 180.153.206.18 - - [17/Jul/2016:00:00:04 +0800] "GET /static/bootstrap/bsie/js/bo...

2016-07-22 16:31:00 61

转载 ElasticSearch2.3版本启动后,外部无法通过head插件访问,机器内部却可以访问

es2.3启动以后,机器内部,都能正常查看和使用,但是在外部通过head等插件无法访问,原因在于es2.3 之后,使用了ipv6, 最好显示指定给一个ipv4的地址,这样外面就能够通过head访问了 ...

2016-07-22 09:53:00 239

转载 KafkaInput & esoutput

heka从kalka中读取数据。 配置: [hekad] maxprocs = 2 [KafkaInputExample] type = "KafkaInput" topic = "test" addrs = ["localhost:9092"] [RstEncoder] [LogO...

2016-07-21 17:44:00 331

转载 HttpInput

配置如下,httpinput用来搜集http请求连接返回的数据。 [hekad] maxprocs = 2 [HttpInput] url = "http://www.bejson.com/" ticker_interval = 5 success_severity = 6 erro...

2016-07-21 16:34:00 277

转载 Mapreduce RCFile写入和读取API示例

RCFile是FaceBook开发的高压缩比、高效读的行列存储结构。通常在Hive中可以直接对一张Text表使用insert-select转换,但有时希望使用Mapreduce进行RCFile的读写。 <dependency> <gr...

2016-07-14 18:06:00 98

转载 Spark与Flink:对比与分析

Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作。用户也可以让Spark保留一个RDD在内存中,使其能在并行操作中被有效的重复使用。Flink是可扩展的批处理和流式数据处理的数据处理平...

2016-07-14 16:59:00 107

转载 Hadoop中自定义类型的序列化说明

TBD 转载于:https://my.oschina.net/weikan/blog/708765

2016-07-09 08:47:00 95

转载 Hive几种存储格式总结

hive文件存储格式 1.textfile textfile为默认格式 存储方式:行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive无法进行合并和拆分 2.sequencefile 二进制文件,以<key,value>的形式序列化到文件中 存储方式:行存储 可分割 ...

2016-07-09 08:37:00 823

转载 Sequencefile序列化(hadoop,hive等)

SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中...

2016-07-09 08:32:00 131

转载 将Avro数据转换为Parquet格式

摘要:本文主要测试将Avro数据转换为Parquet格式的过程并查看 Parquet 文件的 schema 和元数据。 准备 将文本数据转换为 Parquet 格式并读取内容,可以参考 Cloudera 的 MapReduce 例子:https://github.com/cloudera/p...

2016-07-09 08:17:00 466

转载 Parquet

Google 对于传说中3秒查询 1 PB 数据的 Dremel,有一篇论文:Dremel: Interactive Analysis of Web-Scale Datasetshttp://research.google.com/pubs/pub36632.html. 这篇论文基本上在描...

2016-07-09 08:16:00 154

转载 Hive AVRO数据存储格式

Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方...

2016-07-09 08:13:00 155

转载 Hive RCFile 数据存储格式

Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和...

2016-07-09 07:57:00 130

转载 Hive Parquet 数据存储格式

https://cwiki.apache.org/confluence/display/Hive/Parquet#Parquet-HiveQLSyntax Introduction Parquet (http://parquet.io/) is an ecosystem wide co...

2016-07-08 19:08:00 723

转载 Hive Json数据存储格式

https://cwiki.apache.org/confluence/display/Hive/Json+SerDe 数据以json的形式存放,一行一个json数据。 要是 {"field1":"data1","field2":100,"field3":"more data1",...

2016-07-08 18:21:00 663

转载 Hive Index

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Indexing Overview of Hive Indexes The goal of Hive indexing is to improve the s...

2016-07-08 17:01:00 116

转载 udf udaf udtf

一、UDF 1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式:JavaInteger/Stri...

2016-07-08 15:27:00 93

转载 HiveServer2 和 HiveServer

HiveServer is an optional service that allows a remoteclientto submit requests to Hive, using a variety of programming languages, and retrieve re...

2016-07-08 12:05:00 73

转载 Hive CLI beeline

未来替换hive脚本的最新使用方式。 HiveServer2提供了一个新的命令行工具Beeline,它是基于SQLLine CLI的JDBC客户端。关于SQLLine的的知识,可以参考这个网站:http://sqlline.sourceforge.net/#manual Beeline工作...

2016-07-08 11:53:00 168

转载 Hive Resources

Hive Resources 转载于:https://my.oschina.net/weikan/blog/708161

2016-07-08 10:44:00 154

转载 Hive CLI hive脚本的参数

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Cli Hive Command Line Options To get help, run "hive -H" or "hive --help". Us...

2016-07-08 10:42:00 103

转载 Hive CLI的一些命令

官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Commands 这些命令可以直接cli或者beeline里面执行。 quit exit Use quit or...

2016-07-08 10:11:00 82

转载 为何使用oozie coordinator

Oozie所支持工作流,工作流定义通过将多个Hadoop Job的定义按照一定的顺序组织起来,然后作为一个整体按照既定的路径运行。一个工作流已经定义了,通过启动该工作流Job,就会执行该工作流中包含的多个Hadoop Job,直到完成,这就是工作流Job的生命周期。 那么,现在我们有一个工作...

2016-07-07 11:27:00 104

转载 azkaban和oozie的一些区别

地址: http://azkaban.github.io/ http://oozie.apache.org/ 转载于:https://my.oschina.net/weikan/blo...

2016-06-28 22:21:00 266

转载 spark-graphx-outerJoinVertices

outerJoinVertices的作用:通过join将两个图的顶点属性进行汇总,因为是outjoin,可能左边的图的点,没有join上右边对应的点,这时候,这个函数给你了一个选择的判断。 定义: def outerJoinVertices[U, VD2](other: RDD[(Vert...

2016-06-28 16:20:00 358

转载 mapreduce如何获得文件的路径

通常的做法是通过inputSplit来获得,如下: InputSplit split = context.getInputSplit(); 但是,如果使用MultipleInputs的话,则需要进行转化,将TaggedInputSplit转成InputSplit,如下: ...

2016-06-13 13:57:00 493

转载 hbase pheonix安装和基本使用

1.下载对应版本,cdh目前还没有pheonix啊,使用社区版吧,切记版本要对应上。否则会出现,问题:如下, Call failed on IOExceptionorg.apache.hadoop.hbase.DoNotRetryIOException: org.apache.hadoop...

2016-05-31 15:53:00 207

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除