搞hadoop的总结

从7月19号开始,搞了三个半月hadoop了,也没怎么用心,真正用心做的时间甚至都不超过一周的工作时间,惭愧,愧对信任我的老师,本来打算九月底出论文,到现在hadoop的例子都没运行出来。
权威指南看的马马虎虎,所有的内容都没有认认真真地理解, 没有逐字逐句地研究,又想起了在本科毕业后在天健做研发,懒惰的想法,随时随地的天马行空,对自己写程序,做研发,真的没信心了,但是,一屋不扫何以扫天下?写程序基本就是个体力活,与智商无关,与情商无关,只与认真与否有关。

现在在做的是一篇论文的还原,从本质上说就是实现下hadoop的UDF的功能定制,涉及到的模块有 InputFormat, FileSplit, RecordReader,Map和Reduce,现在是完全没有思路,改写也完全没有进入状态,想周末之前拿出来个结果,看来是行不通了

之前困惑的是没有资料,貌似俞老师也说过这样的话,但是完全是站在不同的高度上说的,我是完全不上心,最基本的都没看明白,jar包中的文档看了十分之一都不到,contribute的那些定制的jar包完全都没明白。那里面就是自定义的UDF, 这就是范例,要研究的就是这些,当然例子中功能很多,看明白,选取我们想要的东西就好了。调度的那几个算法,FIFO(默认),公平调度,capacity 调度,这几个包甚至可以研究一下,(不过原理明白是最重要的吧?)

想找好工作,而且是有户口的,也就是说互联网的国企,那么就要去做搜索了,搜索的后台,必然是用Linux, C++来做文章的,后台程序的重头戏还是算法,多线程编程,(基础最扎实的人才行)任务太艰巨了;话说不知道淘宝是否有戏,下周去会会淘宝,估计联想和哥那个公司也该有信了。

新的发现,contribute中的用法还有:index中是与Lucene结合,创建索引的测试,其中都涉及到了InputFormat和RecordReader的写法,很好的参照,基本就是按照这些来写了;其他的代码也要好好研究,
benchmark的源代码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值