如何高效阅读 Spark 和 Hadoop 这类大型开源项目源代码?

我自己看过HDFS以及HDFS Raid的源码,其他的偶尔也看一下。

个人感觉大致以下一些步骤吧:

  1. 看官方网站的描述,知道项目的定位、功能、常见用例。
  2. 搜集文档,与项目相关的论文、整体架构文档、某些重要feature的文档等,如果你愿意像 @vczh 所说的那样email项目主要contributors要一些文档的话,也可以。另外,知名的hadoop和spark的技术博客一定不要错过,比如Yahoo!、Cloudera、Hortonworks、Databricks等的官方博客。对于不明白的feature,可以考虑先去StackOverflow上找找相关信息,给自己普及一下基础知识。
  3. 下载项目源码,看一下源码的layout,了解相关功能在哪个目录下。使用有效地IDE开始分析。
  4. 如果已有别人的源码分析,搞过来看看。比如HDFS、MR的分析已经有书存在了。
  5. 搭建一个单机的系统,run起来,看看日志,打开debug模式跟踪一下。
  6. 自己整理分析笔记之类的,输出有助于更好的思考。
    ps:建议1,2先行。3,4,5可能需要交叉进行。

作者:知乎用户
链接:https://www.zhihu.com/question/24238887/answer/27166338
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

转载于:https://blog.51cto.com/57388/2107665

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值