大数据
ysyxg
这个作者很懒,什么都没留下…
展开
-
ETL技术
1、ETL的定义ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。ETL包含了三方面:“抽取”原创 2015-10-20 19:19:38 · 803 阅读 · 0 评论 -
Mongodb3.0 java MapReduce实例
String mapFunction2 = "function() { "+ " var key = this.userid; "+ " var value = { "+ " userid: this.userid, "+原创 2015-11-26 18:53:05 · 1427 阅读 · 0 评论 -
mongodb数据同步
需求:1.源数据库新增一条记录,目标库同时新增一条记录;2.源数据库修改一条记录,目标库同时修改该条记录;示例用到三个Kettle组件 下面详细说下每个组件的配置Source:本示例连接的是Mongodb数据库,四个字段,ID默认为主键,_id会系统自动生成暂时先不管。本节点的详细说明,可见官网:http://wiki.pen转载 2015-12-16 15:42:42 · 776 阅读 · 0 评论 -
MongoDB数据转移到Mysql库进行数据分析
最近有一个调优的项目设计到MongoDB数据转移到Mysql库进行数据分析。以下是利用kettle对数据的转换的介绍:1:MongoDb的查询: 主要是基于json格式:具体的查询可以见连接MonGoDb的查询语句。 数据集是 由于带有时间戳timestamp,可以在kettle中基于时间戳对其增量读取。2:kettle对于这种非关系型的数据库的设置主要是利用b转载 2015-12-16 15:39:16 · 4003 阅读 · 1 评论 -
kettle组件学习
文本文件输入(text input):读取大量不同的文本文件。大多是通过工具生成的CSV文件。表输入(table Input):常用来利用连接和SQL,从数据中读取信息,自动生成基本的SQL语句。获取系统信息(get system info):这个步骤从 Kettle 环境中获取信息。生成行(Generate Rows ):这个步骤输出一定数转载 2015-12-18 21:21:07 · 3637 阅读 · 0 评论 -
使用Kettle同步数据
同步数据常见的应用场景包括以下4个种类型:Ø 只增加、无更新、无删除Ø 只更新、无增加、无删除Ø 增加+更新、无删除Ø 增加+更新+删除只增加、无更新、无删除对于这种只增加数据的情况,可细分为以下2种类型:1) 基表存在更新字段。通过获取目标表上最大的更新时间或最大ID,在“表输入”步骤中加入条件限制只读取新增的转载 2015-12-23 15:58:11 · 5229 阅读 · 1 评论 -
ubuntu mongodb3.0安装
添加mongodb签名到APTsudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 7F0CEB10创建mongodb-org-3.0.list文件echo "deb http://repo.mongodb.org/apt/ubuntu trusty/mongodb-org/3.0 multivers转载 2015-12-08 18:47:02 · 1253 阅读 · 0 评论