ETL/SPASS/MATLAB/RapidMiner/weka/kettle/DataX/Kylin
tao_wei162
这个作者很懒,什么都没留下…
展开
-
ETL
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。信息是现代企业...原创 2015-12-01 15:59:12 · 212 阅读 · 1 评论 -
DataX 产品说明
DataX是什么? DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换,由淘宝数据平台部门完成。 DataX用来解决什么? 目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出,并且只能支持一个或者几个特定类型的数据库。这样带来的一个问题是,如果我们拥...原创 2017-09-21 14:14:21 · 377 阅读 · 0 评论 -
Apache Kylin是什么
1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展、无法处理超大规模数据、缺少对Hadoop的支持;而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯使用SQL,Hadoop难以实现快速交互式查询等等。神兽Apache Ky...原创 2017-09-08 19:21:09 · 200 阅读 · 0 评论 -
数据迁移工具Sqoop和DataX功能比较
最近由于项目需要,对Apache Sqoop和Taobao DataX工具进行了调研,这里是对二者功能的初步梳理,不会涉及技术细节和使用方法,留作日后选型参考。Sqoop是Apache下的顶级项目,用来将Hadoop和关系型数据库中的数据相互转移,可以将一个关系型数据库(例如:MySQL,Oracle,PostgreSQL等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入...原创 2017-08-09 15:33:07 · 857 阅读 · 0 评论 -
开源离线同步工具 DataX3.0 介绍
一. DataX3.0概览DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候...原创 2017-07-13 10:12:41 · 161 阅读 · 0 评论 -
spass和madlab那个好
SPSS的全称是:Statistical Program for Social Sciences,即社会科学统计程序,最优秀的统计分析软件之一。该软件是公认的最优秀的统计分析软件包之一。SPSS原是为大型计算机开发的,其版本为SPSSx.Spss是著名的综合性统计软件,SPSS软件面向行业应用人员,软件设计突出统计方法的成熟、实用、易用性、界面易操作性及与文字处理软件等的交互性上MATLAB和...原创 2017-04-24 16:14:00 · 558 阅读 · 0 评论 -
Weka是什么
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也...原创 2017-04-19 12:41:44 · 249 阅读 · 0 评论 -
RapidMiner是什么
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。应用介绍编辑数据挖掘过程简单,强大和直观可以用简单脚本语言自动进行大规模进程图形用户界面的互动原型Java API(应用编程接口)RapidMiner具有丰富数据挖掘分析和算法功能,常用于解决各种的商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修...原创 2017-04-19 12:29:55 · 865 阅读 · 0 评论 -
ETL哪个开源软件好
1 随数据库环境的不同可能会使用不同的工具,不过这一点并没有限制,大多工具都支持不同的数据环境。有时可以是几种工具并用,主辅结合;oracle下可选odi,GoldenGate;sqldeveloper亦可作为加载数据的工具;oracle warehouse则使用owb;ibm下可选vw(visual warehouse);mysql下可选kettle,GoldenGate;...原创 2017-04-18 12:45:43 · 273 阅读 · 0 评论 -
ETL的经验总结
ETL的考虑 做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升到了一定的理论高度,和原来小打小闹的工具使用不同了。究竟什么不同,从名字上就可...原创 2017-04-18 12:39:13 · 535 阅读 · 0 评论 -
kettle入门教程
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种...原创 2018-01-07 08:55:46 · 183 阅读 · 0 评论