《Spark MLlib 机器学习算法与源码解析》
spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。
目前,Spark成为了现在大数据领域最火的开源软件,Spark也被许多企业尤其是互联网企业广泛应用到商业项目中,在国内包括阿里、百度、腾讯、网易、搜狐等。
本课程主要讲解Spark MLlib,Spark MLlib是一种高效、快速、可扩展的分布式计算框架;实现了常用的机器学习,如:聚类、分类、回归等算法。本课拒绝枯燥的讲述,将循序渐进从Spark的基础知识、矩阵向量的基础知识开始,然后再透彻讲解各个算法的理论、详细展示Spark源码实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。
通过该课程的学习,同学们可以全面掌握Spark MLlib机器学习,进而能够在实际工作中进行MLlib的应用开发和定制开发。且该课程优异毕业生均可获得老师内推机会,职位:数据挖掘工程师,就职企业:久邦数码、唯品会、腾讯等。掌握技术,高薪就业,课程等待你的加入!
课程大纲:
第一课 Spark MLlib基础入门
1、Spark介绍
2、Spark MLlib介绍
3、课程的基础环境
4、Spark RDD操作