实战hadoop海量数据处理系列:序

最新推荐文章于 2024-04-15 23:24:33 发布

titer1

最新推荐文章于 2024-04-15 23:24:33 发布

阅读量1.7k

点赞数

分类专栏：大数据 MoreHadoop_hadoop海量数据处理实战系列文章标签： hadoop 海量数据处理 hadoop海量数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/titer1/article/details/72895884

版权

大数据同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

MoreHadoop_hadoop海量数据处理实战系列

7 篇文章 8 订阅

订阅专栏

-- 纸上得来终觉浅，绝知此事要躬行

实战hadoop海量数据处理系列:序

都知布道者不易，以写书最难，字字斟酌。本系列大部分是在闲暇时间而作，并是用语音识别辅助记录，多少有瑕疵，但我会持续校正。希望开卷有益，let us go！

大纲

先讲述我我和范老师书的缘分，
第二是对代码的思考，
第三是自己的进度，
第四是对进度进行展望。

1 前记：和范老师书的缘分

得知该书第二版新加入Yarn,Base,并升级到cdh5，我毫不犹豫购买了纸书。纸书的感觉是电子书无法比拟的。

虽理论渐渐深入，工作项目以spark为主，hadoop这一经典系统的知识一直悬浮在半空，这一现象到2017年5月底出现改观。

工程解压后，我开始试着用eclipse去运行，但是0517那天的版本在我电脑上还不能好好的编译。花了半天，把python相关问题给解决了。发现项目还有这些要注意的：

项目没有提供数据库sql
项目没有提供数据源

当时有点懊恼，因为好不容易看到了windows模拟端的python输出，正准备往centos上尝试真机运行啦。

书中实战项目是真实项目，确保可以运行的
书中每一处代码都是附件可以找到的
鉴于数据源的保密等原因，不能照顾到读者
本书的出版其实就是想把最新的hadoop思想和实践感受传递给读者，所以不免瑕疵。

2 写作动机

知道出书不易，我觉得我可以做些什么，为什么不考虑自己去完善这个代码啦。相关解决方法有：

数据库虽然没有sql的建表，但是原书提供了数据仓库的细节，我可以根据实体联系图（ER图）构建出表
数据源问题，由于是教学项目，完全可以随机模拟生成数据
关系数据库原书部分使用了oracle, 没有使用复杂的sql逻辑，完全可以迁移到mysql

当然，为了让读者更易上手，还有一个更美好的方案，将刚刚我提到的数据库，模拟数据源等打包放到虚拟机，以后读者直接就可以上手了。

3 进度

截至0606，完成了：

数据源的导入，sqoop
hive执行命令的工具

从进度栏上来说，应该过了20%，至少让读者能够感受整个数据处理的初期过程。

做到这一点还是比较兴奋，相关结果已经放到github,相关地址是https://github.com/titer1/Play_HadoopFelix，

大家有兴趣可以下载查看，更欢迎相关的建议，pull request更欢迎喔。

4 计划

打通全部的流程，我还需要做到以下几点:

利用ER工具（mysql workbench）还原出原数据库
利用存储过程生成指定数目的数据
Centos 实体机验证数据导入，hive执行

当做到以上几点，万里长征第一步应该完成了。当数据已经在hive里面躺着了，第二步就是就是数据仓库的相关技术：数据处理/数据挖掘等。
期待中，看大象开始奔走了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
实战hadoop海量数据处理系列:序

#实战hadoop海量数据处理系列:序先讲述我我和范老师书的缘分，第二是对代码的思考，第三是自己的进度，第四是对进度进行展望。
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。