- 博客(4)
- 收藏
- 关注
原创 Spark ML 基础:DataFrame、Dataset、feature
Spark ML 是基于DataFrame/ Dataset进行机器学习API的开发,随着Spark 2.0的发展,Dataset将成为主流,会逐步取代RDD、DataFrame,当然这个取代只是在Dataset实现已有RDD、DataFrame的API,大家以后就可以用Dataset的API来实现计算逻辑,所以大家不用担心之前学会的RDD、DataFrame没有用处。博主一般喜欢从源码的角度来看
2016-05-25 14:02:36 19798 1
原创 Spark应用程序运行日志查看
比如,Spark应用程序代码如下: defseq(a: Int, b: Int): Int = { println("seq: " + a + "\t "+ b) math.max(a, b) } defcomb(a: Int, b: Int): Int = { println("comb: " + a + "\t "+ b) a + b } vardata11= sc.
2016-05-20 20:27:57 22082
转载 Spark 2.0 技术预览版: Easier, Faster, and Smarter
For the past few months, we have been busy working on the next major release of the big data open source software we love: Apache Spark 2.0. Since Spark 1.0 came out two years ago, we have heard prais
2016-05-12 11:49:48 7038 3
原创 Spark MLlib 机器学习算法与源码解析(网络课程—第一期)
《Spark MLlib 机器学习算法与源码解析》spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。目前,Spark成为了现在大数据领域最火的开源软
2016-05-11 17:12:36 13239 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人