2014年08月_Synchronized

09月 08月

转载 vim快捷键

2014-08-11 21:09:09 695

转载 VIM 代码折叠

VIM 代码折叠VIM代码折叠方式可以用"foldmethod"选项来设置，如: set foldmethod=indent有6种方式来折叠代码1. manual //手工定义折叠2. indent //用缩进表示折叠3. expr　 //用表达式来定义折叠4. syntax //用语法高亮来定义折叠5. diff //对没有更改的文本进行折叠6.

2014-08-11 21:04:39 607

转载 Python正则表达式指南

Python正则表达式指南本文介绍了Python对于正则表达式的支持，包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式，这些主题请查看其他教程。注意：本文基于Python2.4完成；如果看到不明白的词汇请记得百度谷歌或维基，whatever。尊重作者的劳动，转载请注明作者及原文地址

2014-08-11 20:09:12 608 1

原创 Hadoop工作流引擎之Oozie3.3.2

Hadoop工作流引擎之Oozie3.3.2介绍Oozie是一个由Yahoo开发，用于运行Hadoop工作流的开源工作流引擎。作为一个Java Web程序，它运行在Java Servlet容器中，如Tomcat，并且使用数据库来存储Hadoop工作流的定义和当前运行实例包括实例的状态和变量等。Oozie目前支持的任务包括M/R Job,Streaming Job ,Pi

2014-08-11 20:06:57 8149

原创 Oozie配置说明

Oozie配置说明Oozie数据库配置，修改oozie-site.xml文件 oozie.db.schema.name oozie Oozie DataBase Name oozie.service.JPAService.creat

2014-08-11 20:06:05 5070

原创 Hadoop工作流引擎之Azkaban

Hadoop工作流引擎之Azkaban介绍Azkaban是twitter出的一个任务调度系统，操作比Oozie要简单很多而且非常直观，提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度，Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是http://azkaban.github.io/azkaban2/ ，它的的

2014-08-11 20:05:36 5333

转载 Hadoop工作流引擎之JobControl

Hadoop工作流引擎之JobControlHadoop自带的工作流控制主要包括依赖关系组合式(JobControl)MapReduce和链式(Chain)MapReduce两类。PS：需要注意的是目前由于Hadoop有新旧两套API，分别对应源代码里的mapred和mapreduce两个包，JobControl和Chain在这两种API中的用法是不一样的，而且Hadoop1.x目前海

2014-08-11 20:03:58 1518

转载 GNU Parallel

GNU Parallel它是什么？指南预备parallel >= version 20130814abc-filedef-fileabc0-fileabc_-filetsv_file.tsvnum30000num1000000num_%header远程执行：ssh免密码登录$SERVER1和$SERVER2输入源单个输入源多输入源

2014-08-11 20:01:38 1191

转载 shell 字符串处理

在做shell批处理程序时候，经常会涉及到字符串相关操作。有很多命令语句，如：awk,sed都可以做字符串各种操作。其实shell内置一系列操作符号，可以达到类似效果，大家知道，使用内部操作符会省略启动外部程序等时间，因此速度会非常的快。一、判断读取字符串值表达式含义${var}变量var的值, 与$var相同

2014-08-11 20:00:58 725

转载 Rank() over()的用法

Rank() over()的用法1，2，2，4，5，6.。。。。这是rank()的形式1，2，2，3，4，5，。。。。这是dense_rank()的形式1，2，3，4，5，6.。。。。。这是row_number()涵数形式创建一个test表，并插入6条数据。CREATE TABLEtest(

2014-08-11 19:57:55 743

转载 hive merge小文件

hive merge小文件当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发现输入数据量小但任务数量多时，需要注意在Map前端进行输入合并当然，在我们向一个表写数据时，也需要注意输出文件大小1. Map输入合并小文件对应参

2014-08-11 19:56:35 540

转载 HBase shell commands

HBase shell commandsAs told in HBase introduction, HBase provides Extensible jruby-based (JIRB) shell as a feature to execute some commands(each command represents one functionality).HBase she

2014-08-11 19:54:06 1015

转载 Lateral View语法

Lateral View语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)*fromClause: FROM baseTable (lateralView)*描述lateral view用于和split, explode等UDTF一起使用，它能

2014-08-11 19:53:22 773

原创 YCSB简介

YCSB如何运行：https://github.com/brianfrankcooper/YCSB/wiki/Running-a-Workload推荐操作顺利：https://github.com/brianfrankcooper/YCSB/wiki/Core-Workloads如何扩展：https://github.com/brianfrankcooper/YCSB/wiki/I

2014-08-11 19:49:41 5072

原创 Phoenix(sql on hbase)简介

Phoenix(sql on hbase)简介介绍：Phoenix is a SQL skin over HBase delivered as a client-embedded JDBC driver targeting low latency queries over HBase data. Phoenix takes your SQL query, compile

2014-08-11 19:46:31 5245