Apache Spark™ 是一个快速的, 用于海量数据处理的通用引擎.
官方网址: http://spark.apache.org
中文文档: http://spark.apachecn.org
花了大概两周左右的时间,在原来 Spark 2.0.2 中文文档 版本的基础上,终于迭代出该 Spark 2.2.0 中文文档 的版本了。
衷心感谢每一位参与者,感谢 ApacheCN 让我们聚在一起奋斗,我们一直在努力 。。。
网址: http://spark.apachecn.org/docs/cn/2.2.0
github: https://github.com/apachecn/spark-doc-zh (如果觉得不错,请各位大佬们给个 star)
贡献者: https://github.com/apachecn/spark-doc-zh#贡献者
建议反馈: https://github.com/apachecn/spark-doc-zh#联系方式
以下是 Spark 2.2.0 中文文档 的目录索引:
- 概述
- 编程指南
- 快速入门
- Spark 编程指南
- Spark Streaming 编程指南
- DataFrames, DataSets 和 SQL
- Structured Streaming 编程指南
- MLib(机器学习) – 该版本暂时还未计划翻译这些,如果需要阅读,请参阅 2.0.2 的中文文档的 MLib(机器学习) 部分。
- GraphX(图形处理)
- Spark(R on Spark)
- 部署
- 更多
其它中文文档:
- TensorFlow R1.2 中文文档
- sklearn 0.18 中文文档
- Spark 2.2.0 中文文档
- Spark 2.0.2 中文文档
- Kudu 1.4.0 中文文档
- Zeppelin 0.7.2 中文文档
- Elasticsearch 5.4 中文文档
- Kibana 5.2 中文文档
关于学习 Spark 的部分,英文好点的话,跟着 Spark 官方文档的英文版走就行了。
如果英语不是很好,可以阅读下由 ApacheCN 组织翻译的 Spark 2.2.0 官方文档中文版。
从概述开始,然后编程指南的快速入门,Spark 编程指南,Spark streaming 一步一步往下走。
文档中附带了一些基础的案例,也附带了相应的代码,可用于基础性学习,一开始不要急着写代码,先看文档,一些基本的概念懂了之后,再开始试着慢慢的写代码,即可入门 。。。
当然,学习 Spark 时最好还是有一些前置技能比较好,比如使用过 Storm 之类的,就更容易上手了。
欢迎提出任何建议,更欢迎加入我们一起来学习,Go far,go together.