- 博客(55)
- 资源 (12)
- 问答 (1)
- 收藏
- 关注
原创 hbase 过滤器
使用过滤器可以提高操作表的效率,hbase中两种数据读取函数get()和scan()都支持过滤器,支持直接访问和通过制定起止行键来访问,但是缺少细粒度的筛选功能,如基于正则表达式对行健或值进行筛选的功能可以使用功能预定义号的过滤器或者是实现自定义过滤器 过滤器在客户端创建,通过rpc传送到服务器端,在服务器端执行过滤操作,把数据返回给客户端comparision filters比较过滤器
2016-08-29 22:17:57 502
原创 HBase Scanner扫描器
HBase在扫描数据的时候,使用scanner表扫描器 扫描器缓存 hbase.client.scanner.caching配置项可以设置hbasescanner一次从服务器端抓取的数据条数,默认情况下一次一条。通过将其设置成一个合理的值,可以减少scan过程中next()的开销时间,代价是scanner需要通过客户端的内存来维持这些被cache的行记录 三个地方可以配置: 在hbse的co
2016-08-29 22:05:05 3044
原创 Hbase API
java类 HbaseAdmin HbaseConfiguration org.apache.hadoop.hbase.HBaseConfiguration 用法示例: HBaseConfiguration hconfig = new HBaseConfiguration(); hconfig.set(“hbase.zookeeper.pr
2016-08-29 21:09:58 567
原创 java希尔排序
public class Main { public static void main(String [] args) { int[]a={49,38,65,97,76,13,27,49,78,34,12,64,1}; System.out.println("排序之前:"); for(int i=0;i<a.length;i++)
2016-08-26 11:41:53 303
原创 hbase介绍
hbase是一个分布式的、多版本的、面向列的开源数据库 hbase利用hadoop hdfs作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统 hbase利用hadoop mapreduce来处理hbase、中的海量数据 hbase利用zookeeper作为分布式系统服务特点: 数据量大:一个表可以有上亿行,上百万列(列多时,插入变慢)
2016-08-25 19:52:01 403
原创 memcached简介及安装
临时性键值存储nosql数据库,简单而有力 过去被大量应用在互联网网站中,作为应用和数据库之间的缓存层 可以设置过期时间 不能实时反映数据库内容的变化memcached特点 全内存运转 哈希方式存储 简单文本协议进行数据通信 只操作字符型数据 其他类型数据由应用解释,序列化以及反序列化 集群也有应用进行控制,采用一致性散列(哈希)算法安装apt-get install memcac
2016-08-24 23:05:27 265
原创 hive HQL优化
在有限资源下,提高执行效率 常见问题: 数据倾斜, map数设置 reduce数设置hive执行,HQL>JOB>MAP/REDUCE 查看执行计划 explain 【extended】 hqlhive查询操作优化 join优化 hive.optimize.skewjoin=true;如果是join过程出现倾斜,应该设置为true set hive.skewjoin.key=100
2016-08-24 22:12:36 4723
原创 hive自定义函数
UDF:用户自定义函数 针对单条记录 创建函数: 自定义一个java类,继承UDF类,重写evaluate方法,打jar包,hive执行add jarimport org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class udftest extends UDF{ pub
2016-08-23 22:21:06 1018
原创 java timer定时器
1.case 1/** 按固定间隔执行任务 在delay时间后开始,之后按period执行 * @param task 要执行的任务. * @param delay 任务开始执行前延时的毫秒数 * @param period 后续任务执行的毫秒间隔 * @throws IllegalArgumentException */
2016-08-23 11:11:16 399
原创 hive函数实例
1.and和or的优先级 and优先级大于orroot@ubuntu:~# cat windfunc 1001 100.0 ABC1001 150.0 BCD1001 200.0 CDE1001 150.0 DEF1002 200.0 ABC1002 200.0 ABC1002 100.0 BCD1002
2016-08-22 22:42:08 1821
原创 hive函数
内置函数: 简单函数,聚合函数,集合函数,特殊函数 自定义函数: UDF(map阶段),UDAF(reduce阶段)cli命令 show functions;desc function concat(函数名字);函数的描述信息hive> desc function concat;OKconcat(str1, str2, ... strN) - returns the concatena
2016-08-22 21:33:30 3272
原创 hive高级查询
查询操作 group by、order by、join、distribute by、sort by、cluster by、union all 底层的实现 mapreduce简单的聚合函数 count sum avg distinctorder by全局排序 order by 需要reduce操作,且只有一个reduce,与配置无关 如果数据量大的话,会很浪费资源order by过程
2016-08-19 19:42:02 1146
原创 hive表属性操作
修改表名alter table table_name rename to new_table_name修改列名alter table tablename change column c1 c2 int comment 'xxxx' after col(放在某列的后面)|first(放在第一列)增加列alter table tablename add columns(c1 string commen
2016-08-19 19:27:15 900
原创 hive动态分区
不需要为不同的分区添加不同的插入语句 分区不确定,需要从数据中获取 几个参数:set hive.exec.dynamic.partition=true//使用动态分区set hive.exec.dynamic.partition.mode=nonstrick//无限制模式,如果模式是strict,则必须有一个静态分区,切放在最前面set hive.exec.max.dynamic.parti
2016-08-19 19:01:20 998
原创 日狗一
20160818学习hive中inset overwrite [local] directory '/root/' [row format delinited fields terminated by '\t'] select name,age from student;root@ubuntu:~# ls000000_0我root目录下的文件全没了。。。。。
2016-08-18 22:11:19 337
原创 hive导出数据
导出的方式 1.hadoop命令的方式,get、texthive> select * from student2;OKxiaoming 10xiaohong 12xiaoli 13xiaowang 11lucy 21lily 22Time taken: 1.064 seconds, Fetched: 6 row(s)hive> desc forma
2016-08-18 21:59:10 706
原创 hive加载数据
创建表时加载create table newtable as select col1,col2 from oldtable;创建表时指定数据位置create table tablename() location ''root@ubuntu:~# cat student1.txt xiaoming 10xiaohong 12xiaoli 13xiaowang 11root
2016-08-18 19:59:06 953
原创 hive使用变量
使用set设置变量hive> set name=lucy; hive> set name;name=lucyhive> select * from employee where name='${hiveconf:name}';Total jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since the
2016-08-18 19:31:28 9840
原创 hive表操作
数据类型 基本数据类型 集合类型,array、map、struct 文件格式,textfile、sequencefile、rcfile创建表create table employee( name string comment 'name', salary float; subordinates array<string>, dedecutions map<str
2016-08-17 21:43:35 453
原创 kettle日志参数设置
内存中的日志太多,可能会引起outofmemory的错误 spoon运行时设置日志缓存大小 “选项”对话框里设置 日志窗口的最大行数 内存中保留日志时长 日志视图的最大行数 kettle.properties设置 KETTLE_MAX_LOG_SIZE_IN_LINE变量 KETTLE_MAX_LOG_TIMEOUT_IN_MINUTES变量转换有四个日志表 编辑–>设置
2016-08-17 20:40:15 7876
原创 kettle命令行运行
执行kitchen /rep:repository /user:admin /pass:admin /job:myjob /dir:/pan同理
2016-08-17 20:03:34 1612
原创 kettle远程和集群执行
设置子服务器,默认用户名密码为cluster 密码保存在pwd目录下 启动carte服务,端口号自定义 集群执行 右键步骤,选择集群
2016-08-17 17:21:59 8690
原创 mysql 安装sakila样本数据库
通常情况下对于一个全新的MySQL服务器,没有任何数据供我们测试和使用。对此,MySQL为我们提供了一些样本数据库,我们可以基于这些数据库作基本的操作以及压力测试等等。本文描述的是安装sakila数据库。该数据库需要安装在MySQL 5.0以上的版本下载sakila-db.zip http://dev.mysql.com/doc/index-other.html 解压 安装root@ubunt
2016-08-16 21:04:27 2739
原创 kettle Named Parameters
有一个默认值,也可以在执行转换时指定值sh pan.sh -file:/pentaho/file.ktr -param:FILE_PATH=/opt/inputpan是用来执行ktr的command line
2016-08-16 20:22:07 382
原创 kettle core tools
Spoon 一个用来快速设计和管理复复杂ETL工作的图形用户界面 K icthen 运行job的命令行工具 Pan 运行transformation的命令行工具 Carter 远程运行job和transformation的轻量级服务器
2016-08-16 20:12:48 531
原创 ubuntu安装kettle并通过xmanager进行开发
下载kettle最新版 wget http://sourceforge.net/projects/pentaho/files/Data%20Integration/6.1/pdi-ce-6.1.0.1-196.zipwindows上下载xmanager并安装 在Windows上使用XShell建立连接时,设置连接属性,在 SSH –>tunneling 选项下勾选Forward X11 conne
2016-08-16 19:47:46 2154
原创 scala基础语法
val常量声明 var变量声明 def函数声明数值类型: 整型值,Int、Short、Long、Byte 浮点型值,Double、Float 布尔型值,Boolean(true/false) 字符值,Char、String 除Sting归于java.lang包外,其他基本类型都是scala包的成员scala> val a = 5a: Int = 5scala> val b = 0xA
2016-08-14 12:43:41 317
原创 storm消息分发策略
shuffle grouping:随机分组,随机派发stream里面的tuple,保证每个bolt接收到的tuple数相同 fields grouping:按字段分组,具有相同字段的会被分到相同的bolts all grouping:广播发送,每一个tuple,所有的bolts都会受到 global grouping:全局分组, non grouping:不分组,跟shuffle group
2016-08-14 12:02:39 618
原创 storm单机安装
下载storm地址根据需要的版本来进行下载wget http://apache.fayea.com/storm/apache-storm-0.9.6/apache-storm-0.8.2.tar.gz(见我的资源)修改storm配置文件storm.zookeeper.servers: - "ubuntu"# - "server2"# nimbus.host: "ubuntu"
2016-08-14 10:59:00 305
原创 storm介绍
个性化推荐系统,视频推荐,商品推荐等分布式 可扩展高可靠性 编程模型简单 高效实时storm是twitter开源的一个分布式实时计算系统 使用场景:数据的实时分析,持续计算,分布式RPC等 常用的类: BaseRichSpout(消息生产者) BaseRichBolt(消息处理者) TopologyBuilder(拓扑构建器) Values(将数据存放到Values,发生到下
2016-08-14 10:48:20 264
原创 python字符串格式化
In [1]: "{0} love {1}".format("I","you")Out[1]: 'I love you'In [2]: "{0} love {a}".format("I",a="you")Out[2]: 'I love you'In [3]: "{a} love {b}".format(a="I",b="you")Out[3]: 'I love you'In [4]: "{a}
2016-08-11 08:50:05 341
原创 添加背景音乐
<embed autostart="true" loop="-1" controls="ControlPanel" width="0" height="0" src="audio/abc.mp3"></embed><embed src="背景音乐网址" hidden="true" autostart="true" loop="true">
2016-08-09 15:36:30 766
转载 bootstrap CDN
<!-- 新 Bootstrap 核心 CSS 文件 --><link href="http://apps.bdimg.com/libs/bootstrap/3.3.0/css/bootstrap.min.css" rel="stylesheet"><!-- 可选的Bootstrap主题文件(一般不使用) --><script src="http://apps.bdimg.com/libs/bo
2016-08-09 11:10:35 511
原创 java递归
程序设计中的数学归纳法 每一个递归都有一个基值(终止)条件 ,以防止无限的递归下去 三角数字:1,3,6,10,15,21,28,。。。。。import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;public class TiangleApp { stat
2016-08-08 14:48:50 302
原创 java双向链表
既允许向前遍历也允许向后遍历整个链表public class Link { public long dData; public Link next; public Link previous; public Link(long d){ dData=d; } public void displayLink(){ Syste
2016-08-08 14:33:31 457
原创 java有序链表
public class Link { public long dData;//date item public Link next; public Link(long dd){ dData = dd; } public void displayLink(){ System.out.print( dData + " ");
2016-08-08 14:07:14 1707
zk十分钟入门demo
2017-10-12
plantuml参考手册
2017-04-11
storm-0.8.2
2016-08-14
zeromq-2.1.7.tar.gz
2016-08-14
JSF生命周期的事件处理
2016-08-01
《JavaServer+Faces核心编程 第3版》源码
2016-07-29
用sqoop将mysql数据导入hive中多分区时怎么处理
2017-05-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人