--2数据仓库与ETL(DS/kettle/sql)
文章平均质量分 52
-爱拼才会赢-
只想把一件事做透
展开
-
ftp 文件自动下载、备份、解压、提取目标文件到目标文件夹【一天功夫】
0)从FTP上提取文件到源文件夹,然后备份、接着将源文件夹下的压缩文件进行解压缩、最终,提取只需要的文件! 1)ftp_to_goal.bat echo '文件加载中……'mkdir e:\1sourcerem 将FTP服务器上的东西拿过来 prompt off 关闭主动模式e:cd e:\1sourc原创 2013-05-31 14:44:07 · 1826 阅读 · 0 评论 -
oracle临时表
ORACLE的临时表在应用系统中有很大的作用,它可以让用户只能够操作各自的数据中而互不干扰,不用担心会破坏或影响其他SESSION/TRANSACTION的数据,这也是数据安全的一种解决方法。临时表分为SESSION、TRANSACTION两种,SESSION级的临时表数据在整个SESSION都存在,直到结束此次SESSION;而TRANSACTION级的临时表数据在TRANACTION结束后转载 2013-12-21 11:26:56 · 647 阅读 · 0 评论 -
P2P 网贷平台 投资人投资分析(OLAP多维分析)
P2P投资分析,投资人投资分析,OLAP多维分析,P2P网贷收益分析,时序图原创 2013-12-22 23:43:30 · 2301 阅读 · 0 评论 -
数据修正
是经济数据中吧,有时一个数据公布时是初步统计,称为初值,其中有些数据可能当时并不准确,所以过一段时间会有一个修正值。什么情况下,需要对生产总值数据进行修正? 由于核算GDP所需基础数据的差异,以及统计调查体系的差异,世界各国GDP数据都不是一锤定音,必须根据更加完整、可靠的基础数据不断修订,这是GDP核算的国际惯例。每个国家都会根据自己的情况制定GD原创 2014-01-06 15:41:35 · 2014 阅读 · 0 评论 -
ORACLE ETL数据抽取
数据仓库中的ETL详细的分为四个阶段:提取,传输,转换,装载。我先简单的介绍一下提取和传输的分类和方法: 一:提取 提取可以分为逻辑提取,和物理提取。 1:逻辑提取按照规模分为:完全提取,增量提取。 完全提取简单运用EXP或者全表扫描可以完成。 增量提取是提取相比上次提取增加了的数据,也可以是按照数据产生时间PATITION了的一个分区等等。Oracle's Chan转载 2014-01-06 16:29:13 · 5274 阅读 · 0 评论 -
Oracle “CONNECT BY” 使用
http://www.cnblogs.com/lettoo/archive/2010/08/03/1791239.html Oracle “CONNECT BY”是层次查询子句,一般用于树状或者层次结果集的查询。其语法是:12[ START WITHcondition ]CONNECT BY [ NOCYCLE ]转载 2013-12-22 22:38:18 · 862 阅读 · 0 评论 -
kettle 与 sybase iq 表输入控件问题
iq中的某表90个字段用kettle的表输入控件,则SQL生成不出来,人工将SQL写到表输入控件后,进行数据预览,怎么也出不来数据。。。。将90个字段改为5个字段,数据马上就能预览出来了怀疑这个控件还是存在问题~~~真心感觉SYBASE IQ 不好用!!!(可能是自己不熟悉吧)原创 2014-01-09 18:27:35 · 1193 阅读 · 0 评论 -
sybase iq 优化【查看执行计划】
1)sqlsql advantge 中设置 set showplan on set noexec on go select .......goset showplan offset noexec offgo2) procedure set showplan ongoexec sp_namego转载 2014-01-12 14:15:44 · 1617 阅读 · 0 评论 -
MySql计算两个日期的时间差函数
MySql计算两个日期的时间差函数 MySql计算两个日期的时间差函数TIMESTAMPDIFF用法: 语法: Java代码 TIMESTAMPDIFF(interval,datetime_expr1,datetime_expr2) www.2cto.com 说明: 返回日期或日期时间表达式datetime_expr1 和datetime_expr转载 2014-01-18 18:05:42 · 846 阅读 · 0 评论 -
ETL 工具 VS SQL 整理
ETL 工具 VS SQL 整理原创 2014-02-07 10:07:03 · 4523 阅读 · 1 评论 -
数据质量检查【整理】
根据检查规则,满足数据分析的要求~原创 2014-02-20 19:27:24 · 5634 阅读 · 0 评论 -
时间拉链【数据仓库】
表结构设计之拉链表(一)概念拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。在历史表中对客户的一生的记录可能就这样几条记录,避免了按每一天记录客户状态造成的海量存储的问题:(NAME)人名 (START-DATE)开始日期 (END-DT)结束日期 (STAT)状态client转载 2014-02-25 19:44:59 · 1973 阅读 · 0 评论 -
oracle 统计/分析函数
Oracle从8.1.6开始提供分析函数,分析函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是对于每个组返回多行,而聚合函数对于每个组只返回一行。 语法: Sql代码 function>(,,...) over( order-by-clause> ) 说明: over是关键字,用于标识分析函数。 是指定的转载 2014-02-18 10:53:27 · 1250 阅读 · 0 评论 -
DB2 类似ORACLE的DBLINK解决方法 [DB2数据联邦技术]
DB2 类似ORACLE的DBLINK解决方法原创 2014-03-07 09:28:52 · 6141 阅读 · 0 评论 -
IBM DB2 赋权 [SQL0551N ]
IBM DB2 赋权 [SQL0551N ]原创 2014-03-07 11:00:12 · 7382 阅读 · 0 评论 -
DB2 WINDOWS脚本调用存储过程
1)存储过程CREATE PROCEDURE TT() BEGIN insert into a values('a'); END; 2)脚本,保存到C:\Users\Administrator\Desktop\db2_script.cmd@echo offdb2 connect to sample user db2admin using db2原创 2014-03-31 10:31:56 · 1204 阅读 · 0 评论 -
oracle 去除重复记录
1)select * from ( select t.*, row_number() over(partition by 字段,字段 order by 条件 desc) lev from tb t ) tt where tt.lev=1;--条件可以是时间,也可以是ID,等等2)select ho原创 2013-12-21 11:00:25 · 747 阅读 · 0 评论 -
olap多维星型模型及数据存储(贷款多维分析仿真模型)/销售分析和决策(星型模型)
olap多维星型模型及数据存储(贷款多维分析仿真模型)/销售分析和决策(星型模型)原创 2013-12-20 23:13:41 · 1944 阅读 · 0 评论 -
oracle 缓慢维 增量更新
1) 所有的数据进 原始表后,将标志位置为0,表示为未处理过。 (以前有系统用的触发器处理,进该表的时候触发insert)。2)将原始表标标志位为0 更新进中间表。 然后再原始表标志位置为1,表示数据已经更新过。MERGE INTO T T1USING (SELECT '1001' AS a,2 AS b FROM dual) T2ON ( T原创 2013-12-19 18:14:02 · 903 阅读 · 0 评论 -
SQL性能调优的原理
ps:今天我们公司培训了SQL性能培训,从中学到了些东西,还没经过测试,讲课的是我们公司的项目经理,听他说,他也是在网上找了些资料进行讲解的,他也是在网上找的资料。大致介绍了如下几方面: 1、SQL执行的原理 第一步:客户端把sql语句发给服务器端 第二步:语句解析 1)从缓冲池中查找是否有相同的sql语句,其中对于相同sql的判断有二方面限制(sql语句完全相同,原创 2013-06-10 00:20:24 · 826 阅读 · 0 评论 -
kettle jndi
D:\data-integration\simple-jndi\jdbc.properties tools-datasource #SampleData/type=javax.sql.DataSource#SampleData/driver=org.hsqldb.jdbcDriver#SampleData/url=jdbc:hsqldb:hsql://localhost/s原创 2013-06-03 15:10:19 · 1709 阅读 · 0 评论 -
kettle 字段合并,数据合并,字段值更新
环境:Spoon.bat 4.1.1 文本输入后,批量处理字段: 脚本-->Modified Java Script Value java script: Field2.setValue(c+Field2)原创 2013-06-03 14:39:40 · 9503 阅读 · 0 评论 -
mysql 插入数据加快
现在运行情况:10秒大概10000数据~~~~~~ 1、INSERT装载数据比LOAD DATA INFILE要慢得多,即使是使用上述的策略。 2、加锁 如果不使用锁定,2、3和4将在1和5前完成。如果使用锁定,2、3和4将可能不在1或5前完成,但是整体时间应该快大约40%。 INSERT、UPDATE和DELETE操作在MySQL中是很快的,通过为在一行中多于大约原创 2013-06-03 16:49:00 · 1641 阅读 · 0 评论 -
mysql 空值 与 ''
陷阱二:空值不一定等于空字符 在MySQL中,空值(Null)与空字符(’’)相同吗?答案是否定的。请大家先来看下图的演示。 在同一个数据库表中,同时插入一个Null值的数据和一个’’空字符的数据,然后利用Select语句进行查询。最后显示的结果如上图所示。显然其显示的结果是不相同的。从这个结果中就可以看出,空值不等于空字符。这就是在MySQL中执行SQL语句遇到的第二个陷阱。在实际工原创 2013-06-04 11:40:01 · 1045 阅读 · 0 评论 -
mysql update 两个表关联{两个关联表如何更新其中一个表的数据}
UPDATE 表A,表B SET 表A.typeid=表B.id where 表A.typename=表B.typenam 与其他数据库不一样的地方!原创 2013-06-05 08:44:18 · 12353 阅读 · 0 评论 -
CBIP(商务智能专家)Certified Business Intelligence Professional
商务智能专家(CBIP),一种大数据分析和数据存储技能认证资质,从业人员平均工资 109,943 美元。 tdwi: 1. 数据仓库研究院 2. 研究所 3. 数据仓库学院 4. 数据仓库协会 http://tdwi.org/microsites/australia-international-site/cbip-certification/cbip-hom原创 2013-07-11 10:29:04 · 8019 阅读 · 1 评论 -
数据库自动备份与恢复【定时】
http://www.blogjava.net/fangw/archive/2013/05/31/400044.html MySQL自动备份和手工恢复(可实现定时备份、保留最近7天、异地备份)以下是windows下的批处理:原创 2013-06-27 09:51:03 · 927 阅读 · 0 评论 -
IBM db2 存储过程 嵌套游标使用案例
CREATE PROCEDURE "COGNOSTEST3" ( ) LANGUAGE SQL NOT DETERMINISTIC CALLED ON NULL INPUT EXTERNAL ACTION OLD SAVEPOINT LEVEL MODIFIES SQL DATA INHERIT SPECIAL REGISTERS BEGIN原创 2013-07-31 16:47:22 · 1561 阅读 · 0 评论 -
DB2 sql 重点难点复习总结
SELECT column1,AVG(column2)FROM table_nameGROUP BY column1HAVING AVG(column2) > xxx用DB2自带的图形工具即可知道SQL语句的查询效率,在“运行”中执行:db2ce 命令行方案Db2expln db2expln -d sample -q "select * from staff " -t DB2原创 2013-08-04 01:25:33 · 1097 阅读 · 0 评论 -
IBM DB2 SQL 临时表的使用
DECLARE v_cs_getrptdata cursor with return for v_st;--返回结果集 --临时表 declare global temporary table session.tmp_Srl( DIM_1 VARCHAR(10), DIM_2 VARCHAR(10), DIM_3 VARCHAR(10), DIM_4 V原创 2013-08-06 10:09:14 · 1388 阅读 · 0 评论 -
IBM DB2 数据导出为EXCEL
IBM DB2 数据导出为EXCEL。用EXPORT TO 导出,用excel打开,有时候有乱码。SqlDbx.exe 导出没有乱码。SqlDbx导出有表头,而EXPORT 则没有。原创 2013-09-11 10:48:05 · 3725 阅读 · 0 评论 -
IBM DB2 SQL0153N 语句不包括必需的列表。 SQLSTATE=42908
单个SQL select 能执行,但建不了视图。 检查一下列名,不能有相同的列名。 select T.A,F.Afrom T,F where T.id=F.id 更改为select T.A TA,F.A FAfrom T,F where T.id=F.id原创 2013-09-24 10:47:11 · 7044 阅读 · 1 评论 -
Kettle命令行使用说明
1.Kitchen——作业执行器是一个作业执行引擎,用来执行作业。这是一个命令行执行工具,参数说明如下。1) -rep:Repositoryname任务包所在存储名2) -user:Repositoryusername执行人3) -pass:Repositorypassword执行人密码4) -jo原创 2013-11-04 13:53:38 · 1579 阅读 · 0 评论 -
数据清洗
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等 1.一致性检查 一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。SP转载 2013-12-31 09:11:07 · 4624 阅读 · 0 评论 -
oracle bulk collect 提高Oracle查询效率
declare type ref_cursor is ref cursor; type type_rowid is table of rowid; v_cursor ref_cursor; v_rowid type_rowid;begin open v_cursor for ' select rowid转载 2014-01-02 17:45:52 · 1009 阅读 · 0 评论 -
ORACLE 自带的元数据管理
02年研究dw相关的产品和业务时第一次听说了元数据的概念,很多资料上是这样描述元数据的概念的:元数据是定义或者描述数据的数据。言外之意是先有元数据再有数据。在构建数据仓库前期建模的过程其实就是定义元数据的过程。如果说oltp的产生是源于业务驱动的,那么olap的产生完全是由数据驱动最终为业务服务的,他们其实最后是一个圆周,根本就没有终点,所以搞信息化,db和dw是没有尽头的,我觉得是一个闭环闲言少原创 2014-08-10 11:31:33 · 5160 阅读 · 0 评论