大数据面试技巧——个人总结(持续更新)

说明:以下内容仅为个人观点,仅供参考。


说期望薪资一定要说具体值,不要说区间。


问题尽可能回答的详细一点。
面试官问的一个问题,你回答的越细(比较问你shuffle流程你跟他说一个小时,甚至画张图出来),他后面越问的越少。 一方面是因为你一个问题都能答的那么细,他就觉得你其它方面也还可以。另一方面,面试也有时间限制的,后面的人可能还在等着呢。于是可能你答完这个问题,他随便再问一两个问题基本就可以谈薪资了。
相反,你每个问题都只答一两句,他就得不停提新的问题问你。可能一提就10多个。问到后面没啥问的(因为大数据概念就那么多)就问你数据结构算法了。


回答问题,尽量结合业务去回答,不要只是一味的背。比如rowkey的设计方案。


hive调优手段 不要喀喀喀的背文档,要根据之前公司的具体项目情况选择性进行调优。比如面试时说:“以前我们公司的数据都是小文件,所以有用JVM重用,设置JVM重用数量。但是如果是大文件的话,JVM重用就不适用,反而会导致运行过慢。”


面试问数据来源:大概说下数据来源分类,然后说以前公司项目的数据来源,大概有哪些多少个字段,哪些字段。
前端js代码获取点击数据jsSDK、后台获取javaSDK(例如一笔交易支付成功/退款成功后产生的数据),从其它地方买数据。
项目当中数据差生在nginx服务器中。


指标:一般一个项目几千个指标很正常,饿了么十几万个指标。那么多指标的原因是:不同维度进行排列组合。面试时至少要熟悉一二十个指标。
分析都是基于维度(时间、地域、浏览器版本等)的,不基于维度的分析都是没有意义的。


你用的软件的版本要熟知。(cdh、Hadoop等等)


  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值