2017年05月_zisheng_wang_DATA

05月 04月 03月

原创 Kettle 7.0 怎么连数据库资源库

1.为什么使用资源库如果我们是团队开发项目，除了使用SVN等版本控制软件，还可以使用Kettle的资源库，他会将转换、作业直接保存在数据库中，而且，连接资源库的话，我们就不需要每一次都新建数据库连接了，用起来还是蛮方便的。2.链接资源库Kettle7.0里面，是在右上角这个Connect来连接的2.1 资源库的类型资源库有3中类型Pentaho Repository（默认是如下图）要想链接下面两种类

2017-05-17 09:40:08 16484 19

原创数据仓库-BI商业智能

简介商业智能（BI，Business Intelligence）。BI（Business Intelligence）即商务智能，它是一套完整的解决方案，用来将企业中现有的数据进行有效的整合，快速准确的提供报表并提出决策依据，帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库（或数据集市）、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以

2017-05-13 15:33:13 1584

原创《hive编程指南》学习文档（二）

3.MapReduce的输入输出

2017-05-13 12:55:36 698

原创《hive编程指南》学习文档（一）

第一章基础知识Hive定义1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架

2017-05-13 10:22:28 1782

原创 kafka数据可靠性深度解读

Kafka起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。

2017-05-13 09:39:24 1022

原创 Kettle-7.0增量抽取订单数据

原文来自：http://www.ukettle.org/thread-594-1-1.html业务需求：从mysql数据库中，抽取订单和订单明细数据，做一定的轻度清洗，并将清洗后的数据存放到指定目录下，清洗出来的错误数据存到另一个存error data的目录。实现步骤： 1.使用表输入控件，数据库连接选择mysql如下图：2.将取数的SQL逻辑写到代码填充处，并且取数的时间范围

2017-05-11 15:27:39 9562 1

原创 Apache Kylin介绍

Kylin是ebay开发的一套OLAP系统，主要是对hive中的数据进行预计算，利用hadoop的mapreduce框架实现。通过设计维度、度量，我们可以构建星型模型或雪花模型，生成数据多维立方体Cube，基于Cube可以做钻取、切片、旋转等多维分析操作。Apache Kylin核心思想简单来说，Kylin的核心思想是预计算，用空间换时间，即对多维分析可能用到的度量进行预计算，将计算好的结果保存成C

2017-05-04 19:33:36 2203 1

原创 ODS与数据仓库的区别

数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。**ODS是一个面向主题的、集成的、可变的、当前的细节数据集合，用于支持企业对于即时性的、操作性的、集成的全体信息的需求。常常被作为数据仓库的过渡，

2017-05-02 09:50:20 5031

数据科学入门

数据科学是一个蓬勃发展、前途无限的行业，有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作，教授数据科学工作所必需的黑客技能，并带领读者熟悉数据科学的核心知识——数学和统计学。作者选择了功能强大、简单易学的Python语言环境，亲手搭建工具和实现算法，并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。

2018-02-08

TensorFlow+官方文档中文版.pdf

Google TensorFlow项目负责人Jeff Dean为该中文翻译项目回信称："看到能够将TensorFlow翻译成中文我非常激动，我们将TensorFlow开源的主要原因之一是为了让全世界的人们能够从机器学习与人工智能中获益，类似这样的协作翻译能够让更多的人更容易地接触到TensorFlow项目，很期待接下来该项目在全球范围内的应用!"

2018-02-07

面向机器智能的TensorFlow实践

本书是一本绝佳的TensorFlow入门指南。几位作者都来自研发一线，他们用自己的宝贵经验，结合众多高质量的代码，生动讲解TensorFlow的底层原理，并从实践角度介绍如何将两种常见模型——深度卷积网络、循环神经网络应用到图像理解和自然语言处理的典型任务中。此外，还介绍了在模型部署和编程中可用的诸多实用技巧。

2018-02-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人