搞hadoop的总结

最新推荐文章于 2021-11-12 11:26:17 发布

iteye_21262

最新推荐文章于 2021-11-12 11:26:17 发布

阅读量154

点赞数

分类专栏： hadoop 云计算分布式文章标签：大数据

本文链接：https://blog.csdn.net/iteye_21262/article/details/82199417

版权

hadoop 云计算分布式专栏收录该内容

1 篇文章 0 订阅

订阅专栏

从7月19号开始，搞了三个半月hadoop了，也没怎么用心，真正用心做的时间甚至都不超过一周的工作时间，惭愧，愧对信任我的老师，本来打算九月底出论文，到现在hadoop的例子都没运行出来。
权威指南看的马马虎虎，所有的内容都没有认认真真地理解，没有逐字逐句地研究，又想起了在本科毕业后在天健做研发，懒惰的想法，随时随地的天马行空，对自己写程序，做研发，真的没信心了，但是，一屋不扫何以扫天下？写程序基本就是个体力活，与智商无关，与情商无关，只与认真与否有关。

现在在做的是一篇论文的还原，从本质上说就是实现下hadoop的UDF的功能定制，涉及到的模块有 InputFormat， FileSplit， RecordReader，Map和Reduce，现在是完全没有思路，改写也完全没有进入状态，想周末之前拿出来个结果，看来是行不通了

之前困惑的是没有资料，貌似俞老师也说过这样的话，但是完全是站在不同的高度上说的，我是完全不上心，最基本的都没看明白，jar包中的文档看了十分之一都不到，contribute的那些定制的jar包完全都没明白。那里面就是自定义的UDF，这就是范例，要研究的就是这些，当然例子中功能很多，看明白，选取我们想要的东西就好了。调度的那几个算法，FIFO（默认），公平调度，capacity 调度，这几个包甚至可以研究一下，（不过原理明白是最重要的吧？）

想找好工作，而且是有户口的，也就是说互联网的国企，那么就要去做搜索了，搜索的后台，必然是用Linux， C++来做文章的，后台程序的重头戏还是算法，多线程编程，（基础最扎实的人才行）任务太艰巨了；话说不知道淘宝是否有戏，下周去会会淘宝，估计联想和哥那个公司也该有信了。

新的发现，contribute中的用法还有：index中是与Lucene结合，创建索引的测试，其中都涉及到了InputFormat和RecordReader的写法，很好的参照，基本就是按照这些来写了；其他的代码也要好好研究，
benchmark的源代码