关于spark的一些资料总结

免责声明:本文仅代表个人观点,如有错误,请读者自己鉴别;如果本文不小心含有别人的原创内容,请联系我删除;本人心血制作,若转载请注明出处

1、官方文档,养成看官方文档的习惯

http://spark.apache.org/docs/1.4.1/sql-programming-guide.html

这里一定要好好看,里面的小例程最好都实现一下


2、51学院(很多人做spark都是从王家林这里入手的)

http://book.51cto.com/art/201408/448416.htm


3、GitHub(基本上很多关于spark的资料、源码都可以在这里下载,如Lenet)

https://github.com/patrickmeiring/LeNet


4、spark参数配置,如使用多少个核,每个核多大内存等等

http://www.tuicool.com/articles/zIvayyf


5、spark的GraphX操作(基本上是官方文档上的一个应用)

http://www.dataguru.cn/thread-478144-1-1.html


6、整理的对spark的SQL理解

http://www.tuicool.com/articles/VZRBV3


7、DL4J库的安装与应用

http://deeplearning4j.org/zh-gettingstarted.html


8、spark的机器学习库的介绍

http://www.colabug.com/thread-1144693-1-1.html


9、一些函数讲解

      1)、spark的 reduceByKey 和 groupByKey的比较

      http://www.iteblog.com/archives/1357

   

      2)、spark的 sortBy 和 sortByKey的详解

      http://www.iteblog.com/archives/1240


        3)、spark的 Vectors讲解

     http://blog.sina.com.cn/s/blog_49cd89710102v3be.html


总结:想要做好spark一定先要把架构看好,spark的并行式架构的具体组成,在其次就是那些并行架构是怎么用spark实现的,spark使用scala开发的,所以scala应尽量学好,java可以跟scala无缝嫁接,所以java也应该学好

spark的核心知识:架构、图、数据库、pipeline、流、及机器学习库和深度学习库等等


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值