- 博客(8)
- 资源 (3)
- 收藏
- 关注
原创 Kettle 7.0 怎么连数据库资源库
1.为什么使用资源库如果我们是团队开发项目,除了使用SVN等版本控制软件,还可以使用Kettle的资源库,他会将转换、作业直接保存在数据库中,而且,连接资源库的话,我们就不需要每一次都新建数据库连接了,用起来还是蛮方便的。2.链接资源库Kettle7.0里面,是在右上角这个Connect来连接的2.1 资源库的类型资源库有3中类型Pentaho Repository(默认是如下图)要想链接下面两种类
2017-05-17 09:40:08 16484 19
原创 数据仓库-BI商业智能
简介商业智能(BI,Business Intelligence)。BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以
2017-05-13 15:33:13 1584
原创 《hive编程指南》学习文档(一)
第一章 基础知识Hive定义1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架
2017-05-13 10:22:28 1782
原创 kafka数据可靠性深度解读
Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。
2017-05-13 09:39:24 1022
原创 Kettle-7.0增量抽取订单数据
原文来自:http://www.ukettle.org/thread-594-1-1.html业务需求:从mysql数据库中,抽取订单和订单明细数据,做一定的轻度清洗,并将清洗后的数据存放到指定目录下,清洗出来的错误数据存到另一个存error data的目录。 实现步骤: 1.使用表输入控件,数据库连接选择mysql如下图:2.将取数的SQL逻辑写到代码填充处,并且取数的时间范围
2017-05-11 15:27:39 9562 1
原创 Apache Kylin介绍
Kylin是ebay开发的一套OLAP系统,主要是对hive中的数据进行预计算,利用hadoop的mapreduce框架实现。通过设计维度、度量,我们可以构建星型模型或雪花模型,生成数据多维立方体Cube,基于Cube可以做钻取、切片、旋转等多维分析操作。Apache Kylin核心思想简单来说,Kylin的核心思想是预计算,用空间换时间,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成C
2017-05-04 19:33:36 2203 1
原创 ODS与数据仓库的区别
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。**ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。常常被作为数据仓库的过渡,
2017-05-02 09:50:20 5031
数据科学入门
2018-02-08
TensorFlow+官方文档中文版.pdf
2018-02-07
面向机器智能的TensorFlow实践
2018-02-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人