大数据
文章平均质量分 59
jason_pot
这个作者很懒,什么都没留下…
展开
-
模拟面试
这算是朋友给我试着面试,这之后就试试big data好了。如果依着别人的路走的话,的确没啥创新的。还不如路子野一点。宽度小点,深度扩展。问题:提供了1000亿个64bit的数字,找出出现次数大于三次的数字,并排序。解答:这个问题首先被数字吸引住。1000亿,64bit,那提供的数据非常大。常规单机一定处理不了。数据总的大小为1000*10^8*64bit=6400Gb=800GB.需要有800GB...原创 2018-05-16 21:16:17 · 112 阅读 · 0 评论 -
hadoop 求平均值遇到带问题
具体程序就不写了,主要面对的问题有这么几个:1.由于结果要输出打印,所以最后输出value的类型为Text,而非doubleWritable;2.我写了个mapper输出键值对的value类型为intwritable,即用来保存求和的加数,在reduce函数中通过for循环来计算项数,这样再通过除法求平均值就是不能跑出结果,难道所有引入的数值必须是从mapper中得到的?不该吧,太玄幻了。...原创 2018-05-24 20:27:30 · 341 阅读 · 0 评论 -
Hadoop和spark中的区别
Hadoop: 在MapReduce中,步骤包括map,shuffle,reduce,其中combine和partition是函数。combine作用是将map后产生的键值对中,相同key的合并,产生新的键值对作为reduce的输入。而partition的作用是根据key将键值对划分给对应的reduce。shuffle包括combine和partition。 kvbuffer环在到达临界数据后...原创 2018-07-20 20:47:55 · 321 阅读 · 0 评论