Kettle 7.0 怎么连数据库资源库

1.为什么使用资源库如果我们是团队开发项目,除了使用SVN等版本控制软件,还可以使用Kettle的资源库,他会将转换、作业直接保存在数据库中,而且,连接资源库的话,我们就不需要每一次都新建数据库连接了,用起来还是蛮方便的。2.链接资源库Kettle7.0里面,是在右上角这个Connect来连接的2.1 资源库的类型资源库有3中类型Pentaho Repository(默认是如下图)要想链接下面两种类...
阅读(777) 评论(2)

数据仓库-BI商业智能

简介商业智能(BI,Business Intelligence)。BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以...
阅读(113) 评论(0)

《hive编程指南》学习文档(二)

3.MapReduce的输入输出...
阅读(106) 评论(0)

《hive编程指南》学习文档(一)

第一章 基础知识Hive定义1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架...
阅读(192) 评论(0)

kafka数据可靠性深度解读

Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。...
阅读(216) 评论(0)

Kettle-7.0增量抽取订单数据

原文来自:http://www.ukettle.org/thread-594-1-1.html业务需求:从mysql数据库中,抽取订单和订单明细数据,做一定的轻度清洗,并将清洗后的数据存放到指定目录下,清洗出来的错误数据存到另一个存error data的目录。 实现步骤: 1.使用表输入控件,数据库连接选择mysql如下图:2.将取数的SQL逻辑写到代码填充处,并且取数的时间范围...
阅读(471) 评论(0)

Apache Kylin介绍

Kylin是ebay开发的一套OLAP系统,主要是对hive中的数据进行预计算,利用hadoop的mapreduce框架实现。通过设计维度、度量,我们可以构建星型模型或雪花模型,生成数据多维立方体Cube,基于Cube可以做钻取、切片、旋转等多维分析操作。Apache Kylin核心思想简单来说,Kylin的核心思想是预计算,用空间换时间,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成C...
阅读(156) 评论(0)

ODS与数据仓库的区别

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。**ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。常常被作为数据仓库的过渡,...
阅读(108) 评论(0)

Windows下Kettle-7.0集群安装

1 配置子服务器 打开ketlle目录,找到pwd目录,里面有4个XML文件,分别是子服务器的配置文件和密码文件: Carte-config-master-8080.xml是主服务器的配置文件。编辑该文件,根据情况修改其中的name\hostname\port\master等属性。Name是服务器的名称,hostname是主机名或者IP,port是端口号,Master表明是否是主服务器。此外,...
阅读(467) 评论(3)

怎么在MySQL官网下载java连接MySQL数据库的驱动jar包

MySQL官网下载地址:http://dev.mysql.com/downloads/connector/点击打开链接根据自己的需要选择驱动jar包,如果是Java链接数据库的操作,选择Connector/J可以选择Platform Independent,直接下载zip文件就可以了。 也可以选择链接Looking for previous GA versions?,然后查看历史版本,下载所需版本...
阅读(151) 评论(0)

解决Maven下载依赖慢的问题

使用Maven构建项目时,项目中有的依赖包可能下载的非常慢,我们可以通过配置镜像来解决这个问题。 之前开源中国的那个好像已经关闭了,于是我找到了一个阿里的来解决。 在Maven的配置文件(%MAVEN%/conf/setting.xml)中的 标签中加入 alimaven...
阅读(99) 评论(0)

CDH5.10.x安装

1.CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。 Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hiv...
阅读(1002) 评论(0)

Centos7安装并配置mysql5.7完美教程

1、配置YUM源下载mysql源安装包shell> wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm安装mysql源shell> yum localinstall mysql57-community-release-el7-8.noarch.rpm 检查mysql源是否安装成功 shell> yum...
阅读(125) 评论(0)

CentOS7环境搭建

1.安装 VirtualBox 5.1.14软件 推荐官方下载最新版,下载地址: https://www.virtualbox.org/wiki/Downloads 2.运行VirtualBox 5.1.14,新建3台虚拟机,并安装CentOS7操作系统 CentOS7下载地址: https://wiki.centos.org/Download 真实环境下,需要远程登录,所以我们需要使用桥...
阅读(125) 评论(0)

Kettle-7.0使用举例

1.使用举例 1.1建立转换 选中列表中的的“表输入”、“表输出”、“插入/更新”,拖拽到右侧工作区。鼠标选中节点键盘按shift键,拖拽即可连线。下图是一个转换,有两个动作,一是直接从数据源表同步数据到目标表,一是检查源表的插入和更新,同步到目标表。黑色线为生效,灰色线为失效,节点和连接可双击进行编辑。双击编辑表输入动作。可预览数据是否正确。双击编辑表输出动作。要获取的字段设置如下所示:点击“...
阅读(2710) 评论(0)

Win7下Kettle-7.0安装部署

1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么...
阅读(3843) 评论(2)

什么是Elasticsearch?

一、Elasticsearch简介Elasticsearch是一个分布式的搜索引擎,可以实时分析。可以扩展到数百台服务器,检索巨大的数据。集成在一个独立的服务器,你可以通过REST风格的API来访问。Elasticsearch是建立在Lucene之上,Lucene是一个全文搜索引擎库,最先进的,丰富特点的搜索引擎库。(Lucene只是一个库,要驾驭它,你需要用java集成Lucene,更糟糕的是,你...
阅读(127) 评论(0)

Spark 定制版:018~Spark Streaming中空RDD处理及流处理程序优雅的停止

本讲内容:a. Spark Streaming中的空RDD处理 b. Spark Streaming程序的停止注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解上节回顾上一讲中,我们要给大家解密park Streaming两个比较高级的特性,资源动态申请和动态控制消费速率原理默认情况下,Spark是先分配好资源,然后在进行计算,也就是粗粒度的资源分配...
阅读(495) 评论(0)

Spark 定制版:017~Spark Streaming资源动态申请和动态控制消费速率原理剖析

本讲内容:a. Spark Streaming资源动态分配 b. Spark Streaming动态控制消费速率注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解上节回顾上一讲中,我们要给大家解密park Streaming中数据清理的流程,主要从背景、Spark Streaming数据是如何清理的、源码解析三个方面给大家逐一展开背景Spark Stream...
阅读(1953) 评论(0)

Spark 定制版:016~Spark Streaming源码解读之数据清理内幕彻底解密

本讲内容:a. Spark Streaming数据清理原因和现象 b. Spark Streaming数据清理代码解析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们之所以用一节课来讲No Receivers,是因为企业级Spark Streaming应用程序开发中在越来越多的采用No Receivers的方式。No Receive...
阅读(6269) 评论(0)
43条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:96417次
    • 积分:1392
    • 等级:
    • 排名:千里之外
    • 原创:41篇
    • 转载:1篇
    • 译文:0篇
    • 评论:9条
    最新评论