自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(98)
  • 收藏
  • 关注

原创 kafka

常用命令:val rdd1 = sc.parallelize(List(('a',1),('a',2)))val rdd = sc.textFile(“/usr/local/spark/tmp/char.data")rdd.countrdd.cacheval word_count = rdd.flatMap(_.split(" ")).map((_,1))....

2016-06-23 20:00:16 188

原创 kafka+storm部署及测试

kafka、storm、zookeeper部署 1、 安装环境zookeeper-3.4.8,apache-storm-0.9.3,jdk1.8.0_91,kafka_2.10-0.10.0.02、 配置kafka# The id of the broker. This must be set to a unique integer for each broker....

2016-06-21 19:25:35 285

原创 Flume NG

Mongodb sinkimport java.io.IOException;import java.net.UnknownHostException;import java.util.ArrayList;import java.util.Date;import java.util.List;import java.util.Map;import org.slf...

2015-11-08 16:06:17 162

原创 Python map排序

Abstract This PEP suggests a "sort by value" operation for dictionaries. The primary benefit would be in terms of "batteries included" support for a common Python idiom which, in its c...

2015-03-02 18:38:27 962

原创 mrunit测试

Map/Reduce 单元测试About MRUnitworld count 测试package com.irwin.hadoop;import java.io.File;import java.io.IOException;import java.util.ArrayList;import java.util.List;import java.util.St...

2014-11-27 23:42:33 106

原创 vertica概述

概述,如下图 

2014-11-26 17:50:51 138

原创 Yarn概述

如下图: 

2014-11-19 22:57:42 81

原创 Vertica “ERROR: Too many ROS containers exist”

from:http://blog.csdn.net/kongxx/article/details/38975539 将实时数据导入vertica时出现的错误,记录一下。Caused by: java.sql.SQLException: [Vertica][VJDBC](5065) ERROR: Too many ROS containers exist for the follow...

2014-09-10 20:51:18 396

原创 vertica优化

一、使用Database Desiger1、创建查询sql,此sql为常用查询,vertica通过查询sql生成优化的PROJECTION,生成部分脚本,存放在设置过程中的     (1)多预测查询:常用sql语句SELECT * FROM QUERY_PROFILES    (2)order操作    (3)数据分布算法(数据广播,数据切割)2、通过查看...

2014-08-13 12:10:20 822

原创 vertica自定义函数C++版

Vertica 6.x 只支持R、C++编写Vertica的UDF,由于使用内置的String 提供的函数实现不了substring_index功能,且用C++实现 #include <algorithm>#include <string>#include "Vertica.h"using namespace Vertica;using na...

2014-07-18 00:15:52 555

原创 vertica自定义函数

Vertica实现mysql函数substring_index:package com.yy.vertica;import java.util.Arrays;import java.util.Collections;import java.util.List;import org.apache.commons.lang3.StringUtils;import o...

2014-07-15 20:12:03 1824

原创 JSP下载文件

JSP下载远程服务器文件,通过数据流的方式获取。后台代码如下:@RequestMapping public void requestDownlod(HttpServletResponse response, String filePath){ RemoteDownLoadHelper helper = new RemoteDownLoadHelper(); String r...

2014-05-07 18:52:11 140

原创 Redis-Jedis的八种调用方式

package com.irwin.redis;import java.util.Arrays;import java.util.List;import org.junit.Test;import redis.clients.jedis.Jedis;import redis.clients.jedis.JedisPoolConfig;import r...

2014-04-27 17:43:44 167

原创 《How to Get Control Your Time and Your Life》读书笔记

克林顿我要当个好人,娶个好老婆,养几个好孩子,交几个好朋友,做个成功的政治家,写一本了不起的书 T1:为什么要掌握时间1、太忙压力太大,感觉紧张,身体不舒服2、太闲无所事事,一直在退步,退化 掌握好时间会让我们生活更幸福 T2:什么叫掌握时间利用好时间,张弛有度1、掌握时间的两个误区凡事都井井有条:掌握时间过度,成为时间的奴隶总是做得太...

2014-03-31 22:32:03 279

原创 阿里DataX编译与案例

下载源码 svn checkout http://code.taobao.org/svn/datax/trunk  -环境 root@datanode158:~# java -versionjava version "1.7.0_45"root@datanode158:~# python -VPython 2.7.3root@datanode158:...

2014-03-28 21:13:54 410

原创 阿里DataX概述

    DataX 是一款支持任意异构数据系统离线数据交换的工具、框架、平台,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。目前DataX支持数十种各类数据存储、计算系统,每天为阿里集团传输数据高达数十T。DataX服务的客户不仅仅局限于三淘、支付宝、阿里巴巴B2B,阿里集团外部客户有大众点评、蘑菇街等也在采用DataX建设海量数据同步中心...

2014-03-28 20:42:09 584

原创 Prestodb概述及性能测试

概述内容(1)简介(2)Hive and Prestodb, comparison of functionality(3)Hive and Prestodb, comparison of performance (1)简介Presto是由facebook开发的一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查...

2014-02-14 22:28:44 647

原创 计算两个日期之间的所有日期

#!/bin/bash # $1<=$2 startdate="$1" date1=$(date -d "$1" "+%s") date2=$(date -d "$2" "+%s") date_count=$(echo "$date2 - $date1"|bc) day_m=$(echo "$date_count&qu

2014-01-17 16:10:43 164

原创 FaceBook PrestoDB 安装文档

主要是根据官网内容配置,Presto详细的内容可参考官网 单机安装1、下载presto-server-0.56.tar.gz,解压后在文件夹里创建etc目录在etc下创建一下文件与目录:config.properties : Presto 服务配置jvm.config : Java虚拟机的命令行选项 log.properties : 日志信息node.propert...

2014-01-11 13:44:52 223

原创 rsync配置与案例

安装过程不在此描述。 配置:/etc/rsyncd.confuid=rootgid=rootuse chroot=nomax connections=5log file=/var/log/rsyncd.logsecrets file = /etc/rsyncd.secretsread only = yes[linuxsirhome]path ...

2013-11-08 19:53:41 65

原创 rabbitmq入门-RPC

在项目中引入RabbitMQ通常会考虑它会带来的好处:解耦应用程序,实现不同编程语言之间的互通,解除对特定通信协议的依赖,解除应用程序在时序上执行的依赖(异步).落实到代码层面就是两种常用应用模式:"发后即忘"(fire-and-forget)和RPC. fire-and-forgetRabbitMQ解决的是应用程序之间互联(connect)和规模(scale)的问题,消息发送和接...

2013-11-07 23:18:06 70

原创 rabbitmq入门-主题

direct类型的交换器(exchange),交换器将会对binding key和routing key进行精确匹配,从而确定消息该分发到哪个队列。 topic类型的交换器,通过设置routing key,交换器匹配其表达式,从而确认消息分发的队列。 topic类型交换器不能声明任意的routing key,它的组成是一系列的words,不同word之间使用分隔符分开。word可...

2013-11-07 23:07:11 64

原创 rabbitmq入门-路由

创建过绑定(bindings),代码如下: channel.queueBind(queueName, EXCHANGE_NAME, "");绑定(binding)是指交换器(exchange)和队列(queue)的关系。可以简单理解为:这个队列(queue)对这个交换器(exchange)的消息感兴趣。  绑定的时候可以带上一个额外的routing_key参数。为了避免与...

2013-11-03 00:05:00 89

原创 rabbitmq入门-发布与订阅

发布/订阅:分发一个消息给多个消费者(consumers)接收一个生产者生产的消息 交换器(Exchanges)rabbitmq完整的消息模型 发布者(producer)是发布消息的应用程序。队列(queue)用于消息存储的缓冲。消费者(consumer)是接收消息的应用程序。  RabbitMQ消息模型的核心理念是:发布者(producer)不会直接发送任何...

2013-11-02 16:49:58 150

原创 rabbitmq入门-工作队列

工作队列:为了避免等待一些占用大量资源、时间的操作。当我们把任务(Task)当作消息发送到队列中,一个运行在后台的工作者(worker)进程就会取出任务然后处理。当你运行多个工作者(workers),任务就会在它们之间共享。 消费者1输出  [*] Waiting for messages. To exit press CTRL+C [x] Received 'hi hi. ...

2013-11-02 14:15:44 347

原创 rabbitmq入门-Hello World

rabbitMQ是一个在AMQP基础上完整的,可复用的企业消息系统。rabbitMQ使用二郎语言(ERLANG)编写,使用需安装erlang。 rabbitmq的三个名词解释生产者:发送消息的程序就是一个生产者(producer)队列:队列是发送消息的缓冲,基本上是一个无限的缓冲。多个生产者(producers)能够把消息发送给同一个队列,同样,多个消费者(consumers)也...

2013-11-02 11:41:05 80

原创 字符串通过gzip压缩到base64编码

方法如下:有两种实现,一种利用原生Java API,另外使用Apache common---->IOUtils//测试通过gz压缩->base64编码后字符串String queryString = "I am still alive";ByteArrayOutputStream bos = new ByteArrayOutputStream();Base64O...

2013-08-09 18:01:41 1644

原创 Java IO

待续...  参考《深入分析 Java 中的中文编码问题》

2013-08-08 22:48:16 48

原创 Java Collection简单总结

集合:Map-Set之间联系Map集合的所有key集中起来,这些key就是一个set集合利用Entry<K,V>实现将Set改造成Map HashMap与HashSetHashSet采用hash算法决定集合元素的存储位置,HashMap把value当成key的附属值集合存储中的非对象本身,而是存储的是对象的引用,引用指向实际的java对象 Hash...

2013-08-08 22:40:38 73

原创 漏斗模型

     前几天了解一下友盟SDK上报的相关文档,看到“漏斗模型”概念,总结了一下     一、概念     漏斗模型指的是多个自定义事件序列按照指定顺序依次触发的流程中的量化转化模型。通俗点说,就是从起点到终点有多个环节,每个环节都会产生用户流失,依次递减,每一步都会有一个转化率。另外衍生出“路径分析方法”,包括:关键路径、扩散路径、收敛路径、端点路径,每一条路径,都是一个漏斗。...

2013-08-04 22:34:03 539

原创 正则Pattern、Matcher

Pattern类:    用于创建一个正则表达式,也可以说创建一个匹配模式,它的构造方法是私有的,不可以直接创建,但可以通过Pattern.complie(String regex)简单工厂方法创建一个正则表达式Matcher类:    Pattern.matcher(CharSequence input)返回一个Matcher对象.     Matcher类的构造方法也是私有的,...

2013-07-31 22:54:58 124

原创 java程序员基本技能

贴一下邱总写的java程序员的基本技能,复习复习.... Java基础: Collection: Set(HashSet,LinkedHashSet,SortedSet,TreeSet),Map(HashMap,LinkedHashMap,SortedMap,TreeMap,ConcurrentHashMap),List(ArrayList,LinkedList),Qu...

2013-07-24 22:59:23 105

原创 数据仓库-多维数据模型

一、维表、事实表(1)维是透视或关于一个组织想要记录的实体,描述试题的元信息。如:item:item 的维表可以包含属性item_name, branch, 和type。维表可以由用户或专家设定,或者根据数据分布自动产生和调整(即从事实表中抽取维度表)(2)事实是数值度量的。如:事实表sales包括dollars_sold, units_sold 和amount_budgeted,也可...

2013-07-16 23:20:53 768

原创 HIVE 窗口及分析函数 应用场景

窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 一、分析函数用于等级、百分点、n分片等。函数说明RANK()返回数据项在分组中的排名,排名相等会在名次中留下空位DENSE_RANK()返回数据项在分组中的排名,排名相等会在名次中不会留下空位NTILE()返...

2013-07-16 23:06:34 854

原创 数据挖掘-数据预处理

(1)数据预处理    对于建立数据仓库和数据挖掘都是一个重要的问题,因为现实世界中的数据多半是不完整的、有噪音的和不一致的。数据预处理包括数据清理、数据集成、数据变换和数据归约。 (2)数据清理    可以用于填充遗漏的值,平滑数据,找出局外者并纠正数据的不一致性。 (3)数据集成    将来自不同数据源的数据整合成一致的数据存储。元数据、相关分析、数据冲突检测和...

2013-07-13 17:08:18 152

原创 Hive0.11.0版本新特征

一、文件格式二、字段类型三、窗口函数四、参数配置五、授权六、Join优化七、JDBC 官网还没有完善,详细见http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/ds_Hive/language_manual/ptf-window.html ...

2013-07-11 19:59:56 86

原创 协同过滤-Taste测试

一、简介    Taste 是 Apache Mahout提供的一个协同过滤算法的高效实现,它是一个基于 Java 实现的可扩展的,高效的推荐引擎。Taste 既实现了最基本的基于用户的和基于内容的推荐算法,同时也提供了扩展接口,使用户可以方便的定义和实现自己的推荐算法。同时,Taste 不仅仅只适用于 Java 应用程序,它可以作为内部服务器的一个组件以 HTTP 和 Web Servi...

2013-07-10 23:26:08 323

原创 数据挖掘概念

 数据库技术    已经从原始的数据处理,发展到开发具有查询和事务处理能力的数据库管理系统。进一步的发展导致越来越需要有效的数据分析和数据理解工具。这种需求是各种应用收集的数据爆炸性增长的必然结果;这些应用包括商务和管理、行政管理、科学和工程、环境控制。 数据挖掘    是从大量数据中发现有趣模式,这些数据可以存放在数据库、数据仓库或其它信息存储中。这是一个年青的跨学科领域,...

2013-07-04 20:07:34 146

原创 HIVE GenericeUDF------row_number

HIVE的row_number函数,类似于Oracle的ROW_NUMBER函数,实现在HIVE跑Map/Reduce的Reduce过程中取行号,一般应用于Sort By,Order By具体代码如下: import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.Descrip...

2013-07-03 22:33:13 405

原创 HIVE MAP排序 GenericUDF

package com.duowan.hive.udf.generic;import java.util.ArrayList;import java.util.Collections;import java.util.Comparator;import java.util.HashMap;import java.util.LinkedHashMap;import j...

2013-07-03 17:24:44 1203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除