扫码下载「CSDN程序员学院APP」,1000+技术好课免费看
APP订阅课程,领取优惠,最少立减5元 ↓↓↓
订阅后:请点击此处观看视频课程
视频教程-Python玩转大数据--105精讲视频-Spark
学习有效期:永久观看
学习时长:1694分钟
学习计划:29天
难度:中
「口碑讲师带队学习,让你的问题不过夜」
讲师姓名:张敏
开发组长/高级工程师/技术专家
讲师介绍:大数据工程师/算法工程师/大数据讲师,毕业于西华大学软件工程专业。在大数据领域有着丰富的实战经验。 擅长领域:Spark/Hadoop、算法设计及系统架构、数据挖掘、机器学习~。在Spark内核方面有深入的研究,参与Scala基础入门,Spark内核及性能优化相关书籍部分内容的编写工作。
☛点击立即跟老师学习☚
「你将学到什么?」
该课程采用时下后的编程语言Python讲解,囊括了当前火的大数据技术Spark/Hadoop/Hive知识,学习环境是基于Docker搭建的5个容器。通过这门课程不仅可以学到Spark/Hadoop/Hive大数据知识,还可以学到当下后的云计算技术Docker. 任务作业: 很多人都想入门机器学习和人工智能,挑战高薪!殊不知人工智能和机器学习的基础是数据及数学,特别是在大数据时代,90%以上的公司不单单是招聘算法工程师,到猎聘Boss直聘上查找算法岗位,查看其招聘条件往往都需要熟练使用大数据平台。这门课程涵盖Docker云计算容器技术,要求学员学完本门课程能够使用Docker容器部署4个容器的Spark集群并能用学到的Docker技术制作一个微服务镜像并对外提供服务;本课程全面讲解了Spark原理及接口,要求学员学完本课程能用网络爬虫爬取全国各地的房价数据,并用Spark编写mapreduce程序分析房价分布情况;本课程涉及分布式机器学习SparkML,要求学员学完本课程,能用SVR,LinearRegreesion,多层感知机算法,决策树回归算法等算法进行房价预测。 人人都想入门人工智能,殊不知人工智能的入门准则是基础的算法和数据处理的能力,学完本课程希望人人拿高薪! (注意: 作业需写在CSDN博客中,请把作业链接贴在评论区,老师会定期逐个批改~~)
「课程学习目录」
第1章:课程简介 |
1.课程学习路径简介 |
第2章:Docker知识快速入门 |
1.什么是Docker技术 |
2.为什么要使用Docker |
3.Docker中的基本概念 |
4.Docker安装 |
5.Docker获取镜像 |
6.Docker创建镜像(1) |
7.Docker创建镜像(2) |
8.Docker本地导入镜像 |
9.Docker保存、载入、删除镜像 |
10.Docker容器的创建、启动和停止 |
11.Docker命令进入容器后台 |
12.Docker命令导入导出和删除容器 |
13.Docker公有仓库Docker Hub |
14.Docker私有仓库的创建 |
15.Docker中的数据卷 |
16.Docker制作数据卷容器 |
17.Docker数据卷容器实现备份、恢复和迁移 |
18.Docker容器绑定外部端口和IP |
19.容器互联 |
20.一个完整的例子 |
21.Dockerfile基本结构讲解 |
22.Dockerfile中常见的13中指令 |
第3章:Docker搭建Spark学习环境,一键部署So Easy! |
1.Spark基础核心讲解 |
2.镜像制作方案和集群网络规划及子网配置和SSH无密钥登录配置 |
3.Hadoop、HDFS、Yarn配置文件详解 |
4.Spark及Hive配置文件详解 |
5.Dockerfile制作Hadoop/Spark/Hive镜像 |
6.启动5个容器并启动Hadoop/Spark/Hive集群 |
第4章:pyspark基础及原理快速入门,细致详尽 |
1.pyspark模块介绍 |
2.SparkContext编程入口及Accumulator |
3.addFile方法和SparkFiles的get方法详解 |
4.binaryFiles读取二进制文件 |
5.Broadcast广播变量原理及setLogLevel设置日志级别 |
6.文件的读取和保存及runJob方法和parallelize创建RDD |
7.union方法和statusTracker详解 |
8.aggregate和aggregateByKey的异同 |
9.collectAsMap和fold方法的立即及正确使用 |
10.foreach和foreachPartitions原理及性能对比 |
11.histogram和lookup方法作用及使用 |
12.reduce、sampleStdev等方法详解 |
13.使用sequenceFile读写序列文件 |
14.takeSample,treeAggregate方法使用 |
15.coalesce,repartition方法使用技巧及原理 |
16.cogroup、combineByKey、aggregateByKey的异同及性能对比 |
17.foldByKey,groupBy,groupWith三个方法的对比及原理 |
18.集合操作intersection,subtract,union的使用 |
19.join,fullOuterJoin等RDD的关联操作详解 |
20.glom,mapPartions,mapValues详解 |
21.pipe,randomSplit,sampleByKey等方法详解 |
22.sortBy,sortByKey,values,zip等方法详解 |
23.StorageLevel中常见的存储级别及使用 |
24.SparkConf对象详解 |
25.广播变量深入讲解 |
26.Accumulator累加器详解 |
27.StatusTracker对Spark作业运行状态监控 |
28.Catalog对象详解 |
第5章:pyspark之SparkSQL,入门到精通 |
1.pyspark之SparkSQL模块介绍 |
2.SparkSession编程入口 |
3.掌握创建DataFrame的八种方法 |
4.range和udf用户自定义函数讲解 |
5.agg聚合方法及设置数据缓存 |
6.colRegex及corr计算皮尔森相关系数 |
7.crossJoin笛卡尔积和cube多维数据立方体 |
8.explain,dropna及filter和where算子详解 |
9.groupBy,intersect,join方法详解 |
10.rollup,replace和randomSplit方法详解 |
11.summary统计方法及toPandas转换为Pandas对象 |
12.GroupedData对象 |
13.Column对象(上) |
14.Column对象(下) |
15.Row对象详解 |
16.DataFrameNaFunctions空数据处理 |
17.DataFrameStatFunctions统计模块详解 |
18.DataFrameReader读取外部数据生成DF |
19.DataFrameWriter当DF写入外部存储 |
20.types类型详解 |
21.functions函数模块详解 |
第6章:pyspark机器学习,挑战高薪 |
1.本地密集、稀疏向量和LabeledPoint向量 |
2.本地矩阵和四种分布式矩阵 |
3.Statistics基本的统计方法 |
4.假设检验、随机数据的生成和核密度估计 |
5.Piplines构建机器学习工作流 |
6.TF-IDF词频逆文档数和Word2vec词向量表示 |
7.CountVectorizer和Tokenizer和正则特征 |
8.PCA主成分分析、多项式核函数扩展特征空间、数据正则化 |
9.分桶器、向量组合器、SQL转换器及元素缩放器 |
10.特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器 |
11.逻辑回归算法、原理、公式推导及二分类、多分类实践 |
12.完全理解L1、L2正则化及其作用 |
13.决策树算法原理,随机森林,梯度提升树代码实践 |
14.多层感知机分类算法 |
15.SVM支持向量机分类算法 |
16.OneVsRest多分类算法 |
17.Naive Bayes朴素贝叶斯分类器 |
18.Linear Regression线性回归 |
19.GLMs广义线性模型 |
20.回归树 |
21.K-Means聚类算法 |
22.二分K均值分类 |
23.GMM高斯混合模型 |
24.基于ALS交替最小二乘的协同过滤推荐算法电影推荐实践 |
25.FP-Growth频繁项集推荐算法 |
26.超参数网格搜索 |
27.大数据生态圈的十年 |
「7项超值权益,保障学习质量」
- 大咖讲解
技术专家系统讲解传授编程思路与实战。
- 答疑服务
专属社群随时沟通与讲师答疑,扫清学习障碍,自学编程不再难。
- 课程资料+课件
超实用资料,覆盖核心知识,关键编程技能,方便练习巩固。(部分讲师考虑到版权问题,暂未上传附件,敬请谅解)
- 常用开发实战
企业常见开发实战案例,带你掌握Python在工作中的不同运用场景。
- 大牛技术大会视频
2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。
- APP+PC随时随地学习
满足不同场景,开发编程语言系统学习需求,不受空间、地域限制。
「什么样的技术人适合学习?」
- 想进入互联网技术行业,但是面对多门编程语言不知如何选择,0基础的你
- 掌握开发、编程技术单一、冷门,迫切希望能够转型的你
- 想进入大厂,但是编程经验不够丰富,没有竞争力,程序员找工作难。
「悉心打造精品好课,29天学到大牛3年项目经验」
【完善的技术体系】
技术成长循序渐进,帮助用户轻松掌握
掌握Spark知识,扎实编码能力
【清晰的课程脉络】
浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。
【仿佛在大厂实习般的课程设计】
课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。
「你可以收获什么?」
通过这门课程,带领广大学员入门大数据,胜任大数据Spark开发工作,熟悉Docker云计算容器技术,掌握Spark基于RDD的原理知识,熟练使用Spark Sql进行数据分析,挑战Spark ML机器学习。