- 博客(39)
- 资源 (9)
- 收藏
- 关注
原创 DCMM介绍
以数据生存周期为基础,以数据战略为指引,以数据治理为支撑,建立数据架构、数据应用、数据安全、数据质量、数据标准、数据生存周期等全方位数据管理生态体系。
2024-09-20 15:02:37 233
原创 ClouderaManager修改IP与HostName
背景公司搬迁新到新大楼IP地址发生变化以及需要搭建线上数据中心需要重新规划主机名称,需要线下与线上保持一致方便开发。2.操作系统CentOS6.5CentOS7.4梳理修改相关IP与HostName信息停止相关服务1. 登录ClouderaManager停止所有的CDH服务2. service cloudera-scm-agent stop #需要停止所有的agent3. servi
2017-12-01 17:46:15 2683
原创 Hive数据仓库ODS层数据存储设计
软件环境 Hadoop 2.6.0-cdh5.9.0 Hive 1.1.0-cdh5.9.0 Zookeeper 3.4.5-cdh5.9.0需求背景 数据来源是将8台服务器日志各自压缩成*.gz(8个gz文件)后,按天和小时分区传入到HDFS上,然后通过创建Hive ODS外部表加载到表对应分区,这样一天下来会生产192个gz文件,gz文件是不能进行切分所以查询一天则会产生192
2017-12-01 17:11:07 10211
原创 HiveMetaStore高可用性(HA)配置
软件环境 Hadoop 2.6.0-cdh5.9.0 Hive 1.1.0-cdh5.9.0 Zookeeper 3.4.5-cdh5.9.0工作原理 常规连接 MetaStore HA 前置条件 Hadoop、Zookeeper、Hive是可用的前提Hive Server MetaStore启动 跟单节点配置一样,只不过在多台服务器
2017-12-01 10:00:59 7882
原创 HiveServer2配置HA
软件环境 CentOS 6.8 Hadoop 2.6.0-cdh5.9.0 Hive 1.1.0-cdh5.9.0 Zookeeper 3.4.5-cdh5.9.0工作原理 常规连接 HiverServer HA 配置Hive HA 前置条件先安装好Hadoop、Zookeeper vi $HIVE_HOME/conf/hi
2017-11-30 18:46:51 2281
原创 Kettle使用【插入\更新】组件非常慢
1、建立相应的关键字索引2、表与表关联的关键字段数据类型必须一致突然发现不管是使用Mysql还是Hive经常出错关联后效率非常慢。反思:以后在建模时一定需要严谨考虑这个事情,不然总会效率又变慢了。特别是使用create table table_name as select * from table_name;
2016-09-26 20:57:47 22151 4
原创 Spark连接数据库方法
Version:Spark 1.3.0 方法一:val rdd = new JdbcRDD(sc,()=>{ Class.forName("com.mysql.jdbc.Driver").newInstance() DriverManager.getConnection("url", "user", "password") },"select * fro
2015-04-28 17:33:42 3448
原创 Informatica在linux下安装搭建
安装介质清单准备介质名称版本信息描述Informatica Powercenter9.5.1 for Linux 64 bit必须Java Jdk1.6.0_45 for Linux 64 bit可选,如果想图形安装INFA就需要安装Oracle
2014-10-23 14:56:46 3691 1
原创 DataStage8.5客户端配置出错
错误说明: 在配置好客户端主机名:: ,填写完成后连接出错,出现8020端口错误。 解决方法: 必须要在本机hosts文件中配置IP对应的主机名。注意:主机名有完整主机名与简称主机名,所以就需要配置两个,如:ip linux_vm.site linux_vm
2014-03-19 00:18:06 1754
原创 Linux定时任务说明
service crond (start|stop|restart|status) //启动服务|停止服务|重启服务|服务状态crontab [-u] (-l|-e|-r)-u 指定用户-l 查看定时任务列表-e 编辑定时任务-r 删除所有定时任务crontab -e --编辑定时任务 注:分天星期***0-59
2014-03-15 13:34:01 1373
原创 Oracle常用函数
1、TRANSLATE(exp1,from,to)函数功能:替换字段中出现的对应的字符,如果没有映射关系则删除函数说明:'1234'映射'abcd'顺序一致,如:1映射a2、LEAST(exp1,exp2)函数功能:两字段相比取小值函数说明:LEAST(1,2) 返回 1 LEAST(sysdate,date'2012-1-1') 返回 date'2012-1-1'3、GR
2014-03-14 23:05:42 1175
原创 informatica9.5.1资源库为machine in exclusive mode(REP_51821)
错误信息:[PCSF_10007]Cannot connect to repository [Rs_RotKang] because [REP_51821]Repository Service is currently serving an administrator running on machine in exclusive mode.no other logins are allowe
2014-03-14 18:00:45 3193
原创 Informatica9.5.1创建资源库出错找不到libpmora8.so
错误信息:Database driver event...Error occurred loading library [libclntsh.so.10.1: cannot open shared object file: No such file or directory]Database driver event...Error occurred loading library [libp
2014-03-14 17:56:37 4799 1
原创 informatica9.5.1后最一步出错(ICMD_10033,INFACMD_10053)
错误信息:OutPut : [ICMD_10033] Command [ping] failed with error [[INFACMD_10053] [Domain [Domain_rotkang] Host:Port [192.168.240.128:6005] ] running. Check the domain name, host name, and port number.].
2014-03-14 17:52:53 3361
原创 Informatica9.5.1配置域名错误(ICMD_10033,INFASETUP_10002,RSVCSHARED_00021)
错误信息:OutPut : [ICMD_10033] Command [defineDomain] failed with error [[INFASETUP_10002] Cannot create the domain because of the following error: [RSVCSHARED_00021] Internal error. Failed to get a rep
2014-03-14 17:46:42 4098 1
原创 【Informatica从零开始】第一弹之Informatica在linux下安装搭建
安装介质清单准备介质名称版本信息描述Informatica Powercenter9.5.1 for Linux 64 bit必须Java Jdk1.6.0_45 for Linux 64 bit可选,如果想图形安装INFA就需要安装Oracle
2014-03-14 16:46:12 16464 15
原创 TNS-12545错误的解决
使得tnsping 配置好的tnsnams.ora中的别名,出现TNS-12545错误,通过网上查找资料,经过自己的分析结果如下:是由于在配置tnsnams.ora连接的时候host填写的主机名称,解决这种方法有两种:1、把host修改成主机ip。2、配置hosts文件在文件中添加ip对应的主机名称。以上两种方法格有利弊,可供大家参考人人比较喜欢第2第解决方法。
2014-03-13 21:57:46 6031
转载 VMware虚拟机ping出现DUP!
用nat方式上网,vmnet1启用shared链接vmnet8,这样设置的原因是为了用xshell登录虚拟机 ping 外网, 还是ping 网关都出现DUP! 解决办法也奇怪,禁用下vmnat8,然后重启, 就好了! http://blog.csdn.net/shixha/article/details/21078711
2014-03-13 19:09:10 6230
原创 【Informatica从零开始】Informatica正在准备说明!
说明:由于本人个人觉得Informatica在NT、Server环境中安装太过于简单,给大家讲解也没什么意思,所以正在准备Liunx下安装Informatica给大家详细讲解。大家需要熟悉Liunx一些常用的命令比如:useradd、groupadd、chmod、chown、vi等一些常用的命令,我怕到后面讲到的时候大家都不清楚命令是什么意思哪就尴尬了。所以大家敬请期待。
2014-03-11 22:25:05 2773 20
原创 【Kettle从零开始】第十二弹之Kettle在Linux下搭建
OS:Red Hat 6 64bitKettle:3.2GAJDK:1.6.0_45在Liunx下搭建Kettle需要准备两个应用:一个是JDK,一个是Kettle。 1、 创建kettle用户名与pentaho组。语法如下:创建组:groupadd –g 502pentaho创建用户:useradd –m kettle-g 502 2、 安装JDK
2014-03-11 18:57:40 7325
原创 【Kettle从零开始】第十一弹之Kettle性能调优介绍
性能高优在整个工程中是非常重要的,也是非常有必要的。但有的时候我们往往都不知道如何对性能进行调优。其实性能调优主要分两个方面:一方面是硬件调优,一方面是软件调优。本弹主要是介绍Kettle工具性能调优。关于Kettle性能调优方法有以下几点:1、 调整JVM大小进行性能优化,修改Kettle定时任务中的Kitchen与Pan脚本中。修改脚本代码片段
2014-03-11 18:23:32 12497 3
原创 【Kettle从零开始】第十弹之Kettle运行日志介绍
关于Kettle日志是很重要的一部分,因为不管是任何信息都只能通过日志的方式来查找自己所关心的信息。日志存储有两种方式:一种是文本文件存储日志,另一种是资源库存储日志(注:Kettle资源库日志分两类,一类是Job日志,一类是Trans日志)。日志级别有七类:序号级别描述1没有日志(Nothing)基本
2014-03-11 17:53:07 44617 2
原创 【Kettle从零开始】第九弹之Kettle定时任务介绍
在数据仓库环节ETL定时任务是一个必不可少的一个环节,因为定时任务取决与你的ETL程序抽取业务数据的频率程度(日、周、季、月、年),一般情况下都采用T+1方式来抽取数据。关于Kettle定时任务需要调用脚本来执行“作业”与“转换”对应脚本名“Kitchen”与“Pan”,如果是NT系统则找.bat结尾,Liunx系统则找.sh结尾相应脚本。 需求说明:默认情况下采用T+1方式抽取数据到
2014-03-11 16:45:58 22123 2
原创 【Kettle从零开始】第八弹之Kettle变量参数传递介绍
对于ETL参数传递是一个很重要的环节,因为参数的传递会涉及到业务数据是如何抽取。下面我为大家举例一个简单的需求。需求说明:需要抽取昨天的数据装载到目标表中。 1、 参数作用域?答:Kettle中参数大致可分为两类:一类是全局参数,一类是局部参数。 2、 参数如何定义?答:A:全局参数定义是通过当前用户下.kettle文件夹中的kettle.propert
2014-03-11 13:24:41 67677 9
原创 【Kettle从零开始】第六弹之Kettle作业流程使用
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT需求:把每天ETL执行的错误情况以Email形式发送到指定邮箱。1、创建转换(Ctrl+N),本实例则使用【第四弹Kettle数据抽取使用】中所使用到的转换(RotKang_01.ktr)2、 创建作业对转换进行流程控制,只有在转换执行错误的情况下发送邮件。3、获取发送邮箱地址:yvigmmwfn@16
2014-03-10 23:54:44 36428 2
原创 【Kettle从零开始】第五弹之Kettle转换中常用组件介绍
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT由于组件涉及非常多,我这就只举例几个常用的组件来进行介绍。需要了解全部组件下载Kettle用户手册下载 表输入(Table Input)屏幕截图图标功能说明常用来利用连接和 SQL,从数据库中读取信息。自动生成基本的 SQL语句。组件说明选项描述
2014-03-10 23:53:51 24814 2
原创 【Kettle从零开始】第四弹之Kettle转换数据抽取使用
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT需求:需要把业务系统库、TXT文件、EXCEL文件中的数据抽取到数据仓库中。1、 创建转换(Ctrl+N),转换名称为:RotKang_Test012、 创建数据源连接Rot_Source、Rot_Target,可参考【Kettle数据源连接配置】3、 在Kettle设计盘中拖入“表输入”、
2014-03-10 23:52:33 20764 1
原创 【Kettle从零开始】第三弹之Kettle数据源连接配置
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT关于Kettle数据源连接方式有三种:JDBC、ODBC、JNDI、(OCI只针对Oracle DB),但经常用到的只有两种:一种是JDBC,一种是ODBC数据库连接方式。Kettle中对于数据源有作用域的定义,也就是说有全局数据源与局部数据源两种。 1. 首先打开Kettle UI界面,使用快
2014-03-10 23:51:21 51147 4
原创 【Kettle从零开始】第二弹之Kettle文件夹与界面介绍
1、 下载Kettle3.2GA工具压缩文件。2、 下载1.5或者以上JDK。Kettle工具下载路径可以查看【第一弹Kettle简单介绍】。 文件夹介绍下载Kettle3.2GA解压后出现下图相关文件夹以及文件夹介绍说明:Config-jndi:存放Kettle使用JNDI方式连接数据源方式的文件存放目录。目录下的jdbc.properties配置文件
2014-03-10 00:15:51 21213
原创 Shell读取文本批量导出\导入DB2数据
需求背景:由于DB2 exp\imp数据只能一张表一张表的exp\imp所以通过把所有的表都写在一个exp_imp_db2.txt文件中exp_imp_db2.txt格式如下:(i|e) schema_name table_name src_name ---i=import ;e=exportexp_imp_db2.sh#!/bin/shdb
2014-03-09 00:48:15 5610
原创 Linux下配置Tomcat 80端口与域名
编辑$TOMCAT_HOME/conf/server.xml文件80端口配置 <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" />修改后<Connector port="80" pro
2014-03-09 00:42:39 3074
原创 Bat自动添加Cognos为信任站点
CognosPrompt.bat{@echo off::解决COGNOS导出Excel提示问题信息。echo 开始注册...::Office 2003reg add HKEY_CURRENT_USER\Software\Microsoft\Office\11.0\Excel\Security /v ExtensionHardening /t REG_DW
2014-03-09 00:15:29 1629
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人