《Kettle构建Hadoop ETL系统实践》简介

夏天又到了

已于 2022-04-01 15:12:16 修改

阅读量2.1k

点赞数 1

文章标签：数据仓库大数据 etl

于 2022-04-01 14:32:34 首次发布

本文链接：https://blog.csdn.net/brucexia/article/details/123897289

版权

#好书推荐##好书奇遇季#《Kettle构建Hadoop ETL系统实践》，京东当当天猫都有发售。定价79元，网店打折销售其实没多少钱。

Kettle是一款国外开源的ETL工具，纯Java编写，无须安装，功能完备，数据抽取高效稳定。本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程，所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。我们仍然以CDH作为Hadoop平台，沿用相同的销售订单示例进行说明，因此可以将本书当作《Hadoop构建数据仓库实践》的另一版本。

本书内容

全书共分10章，主要内容包括ETL与Kettle的基本概念、Kettle安装与配置、Kettle对Hadoop的支持、建立ETL示例模型、数据转换与装载、定期自动执行ETL作业、维度表技术、事实表技术，以及Kettle并行、集群与分区技术。

为什么选用Kettle

面对各种各样的ETL开发工具，之所以选择Kettle，主要由于它的一些鲜明特性。首先，很明确的一点是，作为一款GUI工具，Kettle的易用性好，编码工作量最小化。几乎所有的功能都可以通过用户界面完成，提高了ETL过程的开发效率。其次，Kettle的功能完备。书中演示所用的Kettle 8.3版本几乎支持所有常见的数据源，并能满足ETL功能需求的各种转换步骤与作业项。第三，Kettle是基于Java的解决方案，天然继承了Java的跨平台性，只要有合适的JVM存在，转换或作业就能运行在任何环境和平台之上，真正做到与平台无关。最后，Kettle允许多线程与并发执行，以提高程序执行效率。用户只需指定线程数，其他工作都交给Kettle处理，实现细节完全透明化。

本书读者

本书既适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读，也适合高等院校和培训机构人工智能与大数据相关专业的师生参考。

本书作者

王雪迎，毕业于中国地质大学计算机专业，高级工程师，20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司，担任DBA、数据架构师等职位。著有图书《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。