数据仓库
cywhoyi
这个作者很懒,什么都没留下…
展开
-
Kettle第一课
工作快满三年,正式加入数据挖掘、商业智能分析的队伍中去,公司规模不算大,基本上数据仓库也是从零开始,包括我在内也就两人,本想写工具,也设计了方案,但是发现心有余力不足,接触下spoon下ETL工具kettle,入手的版本是current4.3.0 version,问题颇多,就data connection都有问题,然后采用ODBC的方式,下载http://search.oracle.co...原创 2012-07-18 14:40:32 · 275 阅读 · 0 评论 -
Kettle第二课
1.新建作业,保存的格式是Job_courese01.kjb中以“.kjb”为后缀2.连接DB设置向导3.在通用菜单下,选择Transformation,以及start4.在Transformation中选择转换任务5.Transformation后面紧跟着Transformation,加上hops6.在start中选择定时任务机制,可以通过选择时、天、周,以及重...原创 2012-07-26 09:22:01 · 110 阅读 · 0 评论 -
Kettle第三课
当前两次学习汇总起来以后,kettle的使用有点水到渠成了,多转换任务下作业的使用,其实就是job下1->NTransformations,然后进行一一调度,高深使用不外乎就是日志记录、以及插入\更新、多格式的输入\输出、脚本编写判断等 截图来展示基础效果,以免以后重复性工作,现成的ETL工具使用,确实给我带来比较快速的开发,下一阶段就是必须把已有的东西消化完,进行延展...原创 2012-07-26 19:42:15 · 106 阅读 · 0 评论 -
Kettle第四课
Liunx下如何部署以及调度已有编写作业和转换呢? 首先,安装jre,配置java环境变量 (一) 下载jre-6u23-linux-x64.bin下载地址:http://cds-esd.sun.com/ESD6/JSCDL/jdk/6u23-b05/jre-6u23-linux-x64.bin?AuthParam=1292401739_2abc6c61c57eec5b1...原创 2012-07-26 19:47:59 · 111 阅读 · 0 评论 -
数据库代数
1. 选择(Selection) 1) 选择又称为限制(Restriction) 2) 选择运算符的含义 在关系R中选择满足给定条件的诸元组 σF(R) = {t|tR∧F(t)= '真'} F:选择条件,是一个逻辑表达式,基本形式为: [( ] X1θY1 [ )][φ [( ] X2θY2 [ )]]… θ:比较运算符(>,≥,<,≤,=或<>) X1,Y1等:属性名、常...原创 2013-05-02 17:01:30 · 173 阅读 · 0 评论 -
hadoop实战多表关联
多表关联处理获取结果,大致意思把数据切割成左右表package org.apache.hadoop.examples;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs....原创 2013-07-18 13:38:49 · 182 阅读 · 0 评论 -
数据处理基于DataMicroservices实现
背景:谈到微服务化,肯定会想到容器,谈到java的微服务化,势必也想到spring cloud,但是谈到数据微服务化,可能或多或少大家不太理解。Data Microservices被提出来,是要解决现在数据时代下,需要解决如下几个痛点问题,不分先后次序:数据来源错综复杂,mq、rest、jdbc、log等数据的信息结构复杂多样化数据量很大,想象下爬虫、电商平台、新零售等容器...2017-12-29 13:45:48 · 298 阅读 · 0 评论