2016年08月_CrazyL-

12月 11月 10月 09月 08月 07月 06月 03月 02月 01月

原创 hbase 过滤器

使用过滤器可以提高操作表的效率，hbase中两种数据读取函数get()和scan()都支持过滤器，支持直接访问和通过制定起止行键来访问，但是缺少细粒度的筛选功能，如基于正则表达式对行健或值进行筛选的功能可以使用功能预定义号的过滤器或者是实现自定义过滤器过滤器在客户端创建，通过rpc传送到服务器端，在服务器端执行过滤操作，把数据返回给客户端comparision filters比较过滤器

2016-08-29 22:17:57 502

原创 HBase Scanner扫描器

HBase在扫描数据的时候，使用scanner表扫描器扫描器缓存 hbase.client.scanner.caching配置项可以设置hbasescanner一次从服务器端抓取的数据条数，默认情况下一次一条。通过将其设置成一个合理的值，可以减少scan过程中next（）的开销时间，代价是scanner需要通过客户端的内存来维持这些被cache的行记录三个地方可以配置：在hbse的co

2016-08-29 22:05:05 3044

原创 Hbase API

java类 HbaseAdmin HbaseConfiguration org.apache.hadoop.hbase.HBaseConfiguration 用法示例： HBaseConfiguration hconfig = new HBaseConfiguration（）； hconfig.set(“hbase.zookeeper.pr

2016-08-29 21:09:58 567

原创 java希尔排序

public class Main { public static void main(String [] args) { int[]a={49,38,65,97,76,13,27,49,78,34,12,64,1}; System.out.println("排序之前："); for(int i=0;i<a.length;i++)

2016-08-26 11:41:53 301

原创 hbase介绍

hbase是一个分布式的、多版本的、面向列的开源数据库 hbase利用hadoop hdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统 hbase利用hadoop mapreduce来处理hbase、中的海量数据 hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）

2016-08-25 19:52:01 403

原创 memcached简介及安装

临时性键值存储nosql数据库，简单而有力过去被大量应用在互联网网站中，作为应用和数据库之间的缓存层可以设置过期时间不能实时反映数据库内容的变化memcached特点全内存运转哈希方式存储简单文本协议进行数据通信只操作字符型数据其他类型数据由应用解释，序列化以及反序列化集群也有应用进行控制，采用一致性散列（哈希）算法安装apt-get install memcac

2016-08-24 23:05:27 265

原创 hive HQL优化

在有限资源下，提高执行效率常见问题：数据倾斜， map数设置 reduce数设置hive执行，HQL>JOB>MAP/REDUCE 查看执行计划 explain 【extended】 hqlhive查询操作优化 join优化 hive.optimize.skewjoin=true;如果是join过程出现倾斜，应该设置为true set hive.skewjoin.key=100

2016-08-24 22:12:36 4722

原创 hive自定义函数

UDF：用户自定义函数针对单条记录创建函数：自定义一个java类，继承UDF类，重写evaluate方法，打jar包，hive执行add jarimport org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class udftest extends UDF{ pub

2016-08-23 22:21:06 1018

原创 java timer定时器

1.case 1/** 按固定间隔执行任务在delay时间后开始，之后按period执行 * @param task 要执行的任务. * @param delay 任务开始执行前延时的毫秒数 * @param period 后续任务执行的毫秒间隔 * @throws IllegalArgumentException */

2016-08-23 11:11:16 399

原创 hive函数实例

1.and和or的优先级 and优先级大于orroot@ubuntu:~# cat windfunc 1001 100.0 ABC1001 150.0 BCD1001 200.0 CDE1001 150.0 DEF1002 200.0 ABC1002 200.0 ABC1002 100.0 BCD1002

2016-08-22 22:42:08 1819

原创 hive函数

内置函数：简单函数，聚合函数，集合函数，特殊函数自定义函数： UDF（map阶段），UDAF（reduce阶段）cli命令 show functions；desc function concat（函数名字）；函数的描述信息hive> desc function concat;OKconcat(str1, str2, ... strN) - returns the concatena

2016-08-22 21:33:30 3270

原创 hive高级查询

查询操作 group by、order by、join、distribute by、sort by、cluster by、union all 底层的实现 mapreduce简单的聚合函数 count sum avg distinctorder by全局排序 order by 需要reduce操作，且只有一个reduce，与配置无关如果数据量大的话，会很浪费资源order by过程

2016-08-19 19:42:02 1144

修改表名alter table table_name rename to new_table_name修改列名alter table tablename change column c1 c2 int comment 'xxxx' after col(放在某列的后面)|first(放在第一列)增加列alter table tablename add columns(c1 string commen

2016-08-19 19:27:15 897

原创 hive动态分区

不需要为不同的分区添加不同的插入语句分区不确定，需要从数据中获取几个参数：set hive.exec.dynamic.partition=true//使用动态分区set hive.exec.dynamic.partition.mode=nonstrick//无限制模式，如果模式是strict，则必须有一个静态分区，切放在最前面set hive.exec.max.dynamic.parti

2016-08-19 19:01:20 998

原创日狗一

20160818学习hive中inset overwrite [local] directory '/root/' [row format delinited fields terminated by '\t'] select name,age from student;root@ubuntu:~# ls000000_0我root目录下的文件全没了。。。。。

2016-08-18 22:11:19 337

原创 hive导出数据

导出的方式 1.hadoop命令的方式，get、texthive> select * from student2;OKxiaoming 10xiaohong 12xiaoli 13xiaowang 11lucy 21lily 22Time taken: 1.064 seconds, Fetched: 6 row(s)hive> desc forma

2016-08-18 21:59:10 706

原创 hive加载数据

创建表时加载create table newtable as select col1,col2 from oldtable;创建表时指定数据位置create table tablename() location ''root@ubuntu:~# cat student1.txt xiaoming 10xiaohong 12xiaoli 13xiaowang 11root

2016-08-18 19:59:06 952

原创 hive使用变量

使用set设置变量hive> set name=lucy; hive> set name;name=lucyhive> select * from employee where name='${hiveconf:name}';Total jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since the

2016-08-18 19:31:28 9840

原创 hive表操作

数据类型基本数据类型集合类型，array、map、struct 文件格式，textfile、sequencefile、rcfile创建表create table employee( name string comment 'name', salary float; subordinates array<string>, dedecutions map<str

2016-08-17 21:43:35 452

原创 hive常用命令

显示表头，当前终端有效set hive.cli.print.header=true;

2016-08-17 21:28:59 2501

原创 kettle日志参数设置

内存中的日志太多，可能会引起outofmemory的错误 spoon运行时设置日志缓存大小 “选项”对话框里设置日志窗口的最大行数内存中保留日志时长日志视图的最大行数 kettle.properties设置 KETTLE_MAX_LOG_SIZE_IN_LINE变量 KETTLE_MAX_LOG_TIMEOUT_IN_MINUTES变量转换有四个日志表编辑–>设置

2016-08-17 20:40:15 7870

原创 kettle命令行运行

执行kitchen /rep:repository /user:admin /pass:admin /job:myjob /dir:/pan同理

2016-08-17 20:03:34 1612

原创 kettle远程和集群执行

设置子服务器，默认用户名密码为cluster 密码保存在pwd目录下启动carte服务，端口号自定义集群执行右键步骤，选择集群

2016-08-17 17:21:59 8690

原创 mysql 安装sakila样本数据库

通常情况下对于一个全新的MySQL服务器，没有任何数据供我们测试和使用。对此，MySQL为我们提供了一些样本数据库，我们可以基于这些数据库作基本的操作以及压力测试等等。本文描述的是安装sakila数据库。该数据库需要安装在MySQL 5.0以上的版本下载sakila-db.zip http://dev.mysql.com/doc/index-other.html 解压安装root@ubunt

2016-08-16 21:04:27 2732

原创 kettle variables

变量用${}括起来，或者%%变量%%

2016-08-16 20:28:43 393

原创 kettle Named Parameters

有一个默认值，也可以在执行转换时指定值sh pan.sh -file:/pentaho/file.ktr -param:FILE_PATH=/opt/inputpan是用来执行ktr的command line

2016-08-16 20:22:07 382

原创 kettle core tools

Spoon 一个用来快速设计和管理复复杂ETL工作的图形用户界面 K icthen 运行job的命令行工具 Pan 运行transformation的命令行工具 Carter 远程运行job和transformation的轻量级服务器

2016-08-16 20:12:48 531

原创 ubuntu安装kettle并通过xmanager进行开发

下载kettle最新版 wget http://sourceforge.net/projects/pentaho/files/Data%20Integration/6.1/pdi-ce-6.1.0.1-196.zipwindows上下载xmanager并安装在Windows上使用XShell建立连接时，设置连接属性，在 SSH –>tunneling 选项下勾选Forward X11 conne

2016-08-16 19:47:46 2154

原创 regular-expressions

参考 http://www.regular-expressions.info/

2016-08-15 16:30:48 335

原创 scala基础语法

val常量声明 var变量声明 def函数声明数值类型：整型值，Int、Short、Long、Byte 浮点型值，Double、Float 布尔型值，Boolean（true/false）字符值，Char、String 除Sting归于java.lang包外，其他基本类型都是scala包的成员scala> val a = 5a: Int = 5scala> val b = 0xA

2016-08-14 12:43:41 316

原创 ubuntu安装scala

apt-get install scala

2016-08-14 12:28:07 592

原创 storm消息分发策略

shuffle grouping：随机分组，随机派发stream里面的tuple，保证每个bolt接收到的tuple数相同 fields grouping：按字段分组，具有相同字段的会被分到相同的bolts all grouping：广播发送，每一个tuple，所有的bolts都会受到 global grouping：全局分组， non grouping：不分组，跟shuffle group

2016-08-14 12:02:39 618

原创 storm单机安装

下载storm地址根据需要的版本来进行下载wget http://apache.fayea.com/storm/apache-storm-0.9.6/apache-storm-0.8.2.tar.gz（见我的资源）修改storm配置文件storm.zookeeper.servers: - "ubuntu"# - "server2"# nimbus.host: "ubuntu"

2016-08-14 10:59:00 305

原创 storm介绍

个性化推荐系统，视频推荐，商品推荐等分布式可扩展高可靠性编程模型简单高效实时storm是twitter开源的一个分布式实时计算系统使用场景：数据的实时分析，持续计算，分布式RPC等常用的类： BaseRichSpout(消息生产者) BaseRichBolt（消息处理者） TopologyBuilder（拓扑构建器） Values（将数据存放到Values，发生到下

2016-08-14 10:48:20 264

原创 python字符串格式化

In [1]: "{0} love {1}".format("I","you")Out[1]: 'I love you'In [2]: "{0} love {a}".format("I",a="you")Out[2]: 'I love you'In [3]: "{a} love {b}".format(a="I",b="you")Out[3]: 'I love you'In [4]: "{a}

2016-08-11 08:50:05 340

原创添加背景音乐

2016-08-09 15:36:30 766

转载 bootstrap CDN

<link href="http://apps.bdimg.com/libs/bootstrap/3.3.0/css/bootstrap.min.css" rel="stylesheet"><script src="http://apps.bdimg.com/libs/bo

2016-08-09 11:10:35 510

原创 java递归

程序设计中的数学归纳法每一个递归都有一个基值（终止）条件，以防止无限的递归下去三角数字：1，3，6，10，15，21，28，。。。。。import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;public class TiangleApp { stat

2016-08-08 14:48:50 302

原创 java双向链表

既允许向前遍历也允许向后遍历整个链表public class Link { public long dData; public Link next; public Link previous; public Link(long d){ dData=d; } public void displayLink(){ Syste

2016-08-08 14:33:31 457

原创 java有序链表

public class Link { public long dData;//date item public Link next; public Link(long dd){ dData = dd; } public void displayLink(){ System.out.print( dData + " ");

2016-08-08 14:07:14 1707