视频教程-Python玩转大数据--105精讲视频-Spark

学院导师-张敏

于 2020-05-28 10:24:00 发布

阅读量366

点赞数

本文链接：https://blog.csdn.net/weixin_30793863/article/details/106509905

版权

Python玩转大数据--105精讲视频

大数据工程师/算法工程师/大数据讲师，毕业于西华大学软件工程专业。在大数据领域有着丰富的实战经验。擅长领域：Spark/Hadoop、算法设计及系统架构、数据挖掘、机器学习~。在Spark内核方面有深入的研究，参与Scala基础入门，Spark内核及性能优化相关书籍部分内容的编写工作。

张敏

¥399.00

立即订阅

扫码下载「CSDN程序员学院APP」，1000+技术好课免费看

APP订阅课程，领取优惠，最少立减5元 ↓↓↓

视频教程-Python玩转大数据--105精讲视频-Spark

学习有效期：永久观看

学习时长：1694分钟

学习计划：29天

难度：中

「口碑讲师带队学习，让你的问题不过夜」

讲师姓名：张敏

开发组长/高级工程师/技术专家

讲师介绍：大数据工程师/算法工程师/大数据讲师，毕业于西华大学软件工程专业。在大数据领域有着丰富的实战经验。擅长领域：Spark/Hadoop、算法设计及系统架构、数据挖掘、机器学习~。在Spark内核方面有深入的研究，参与Scala基础入门，Spark内核及性能优化相关书籍部分内容的编写工作。

该课程采用时下后的编程语言Python讲解，囊括了当前火的大数据技术Spark/Hadoop/Hive知识，学习环境是基于Docker搭建的5个容器。通过这门课程不仅可以学到Spark/Hadoop/Hive大数据知识，还可以学到当下后的云计算技术Docker. 任务作业：很多人都想入门机器学习和人工智能，挑战高薪！殊不知人工智能和机器学习的基础是数据及数学，特别是在大数据时代，90%以上的公司不单单是招聘算法工程师，到猎聘Boss直聘上查找算法岗位，查看其招聘条件往往都需要熟练使用大数据平台。这门课程涵盖Docker云计算容器技术，要求学员学完本门课程能够使用Docker容器部署4个容器的Spark集群并能用学到的Docker技术制作一个微服务镜像并对外提供服务；本课程全面讲解了Spark原理及接口，要求学员学完本课程能用网络爬虫爬取全国各地的房价数据，并用Spark编写mapreduce程序分析房价分布情况；本课程涉及分布式机器学习SparkML,要求学员学完本课程，能用SVR，LinearRegreesion,多层感知机算法，决策树回归算法等算法进行房价预测。人人都想入门人工智能，殊不知人工智能的入门准则是基础的算法和数据处理的能力，学完本课程希望人人拿高薪！（注意：作业需写在CSDN博客中，请把作业链接贴在评论区，老师会定期逐个批改~~）

「课程学习目录」

第1章：课程简介

1.课程学习路径简介

第2章：Docker知识快速入门

1.什么是Docker技术

2.为什么要使用Docker

3.Docker中的基本概念

4.Docker安装

5.Docker获取镜像

6.Docker创建镜像（1）

7.Docker创建镜像（2）

8.Docker本地导入镜像

9.Docker保存、载入、删除镜像

10.Docker容器的创建、启动和停止

11.Docker命令进入容器后台

12.Docker命令导入导出和删除容器

13.Docker公有仓库Docker Hub

14.Docker私有仓库的创建

15.Docker中的数据卷

16.Docker制作数据卷容器

17.Docker数据卷容器实现备份、恢复和迁移

18.Docker容器绑定外部端口和IP

19.容器互联

20.一个完整的例子

21.Dockerfile基本结构讲解

22.Dockerfile中常见的13中指令

第3章：Docker搭建Spark学习环境，一键部署So Easy!

1.Spark基础核心讲解

2.镜像制作方案和集群网络规划及子网配置和SSH无密钥登录配置

3.Hadoop、HDFS、Yarn配置文件详解

4.Spark及Hive配置文件详解

5.Dockerfile制作Hadoop/Spark/Hive镜像

6.启动5个容器并启动Hadoop/Spark/Hive集群

第4章：pyspark基础及原理快速入门，细致详尽

1.pyspark模块介绍

2.SparkContext编程入口及Accumulator

3.addFile方法和SparkFiles的get方法详解

4.binaryFiles读取二进制文件

5.Broadcast广播变量原理及setLogLevel设置日志级别

6.文件的读取和保存及runJob方法和parallelize创建RDD

7.union方法和statusTracker详解

8.aggregate和aggregateByKey的异同

9.collectAsMap和fold方法的立即及正确使用

10.foreach和foreachPartitions原理及性能对比

11.histogram和lookup方法作用及使用

12.reduce、sampleStdev等方法详解

13.使用sequenceFile读写序列文件

14.takeSample,treeAggregate方法使用

15.coalesce，repartition方法使用技巧及原理

16.cogroup、combineByKey、aggregateByKey的异同及性能对比

17.foldByKey,groupBy,groupWith三个方法的对比及原理

18.集合操作intersection,subtract,union的使用

19.join,fullOuterJoin等RDD的关联操作详解

20.glom,mapPartions,mapValues详解

21.pipe,randomSplit，sampleByKey等方法详解

22.sortBy,sortByKey,values,zip等方法详解

23.StorageLevel中常见的存储级别及使用

24.SparkConf对象详解

25.广播变量深入讲解

26.Accumulator累加器详解

27.StatusTracker对Spark作业运行状态监控

28.Catalog对象详解

第5章：pyspark之SparkSQL,入门到精通

1.pyspark之SparkSQL模块介绍

2.SparkSession编程入口

3.掌握创建DataFrame的八种方法

4.range和udf用户自定义函数讲解

5.agg聚合方法及设置数据缓存

6.colRegex及corr计算皮尔森相关系数

7.crossJoin笛卡尔积和cube多维数据立方体

8.explain,dropna及filter和where算子详解

9.groupBy，intersect,join方法详解

10.rollup,replace和randomSplit方法详解

11.summary统计方法及toPandas转换为Pandas对象

12.GroupedData对象

13.Column对象（上）

14.Column对象（下）

15.Row对象详解

16.DataFrameNaFunctions空数据处理

17.DataFrameStatFunctions统计模块详解

18.DataFrameReader读取外部数据生成DF

19.DataFrameWriter当DF写入外部存储

20.types类型详解

21.functions函数模块详解

第6章：pyspark机器学习，挑战高薪

1.本地密集、稀疏向量和LabeledPoint向量

2.本地矩阵和四种分布式矩阵

3.Statistics基本的统计方法

4.假设检验、随机数据的生成和核密度估计

5.Piplines构建机器学习工作流

6.TF-IDF词频逆文档数和Word2vec词向量表示

7.CountVectorizer和Tokenizer和正则特征

8.PCA主成分分析、多项式核函数扩展特征空间、数据正则化

9.分桶器、向量组合器、SQL转换器及元素缩放器

10.特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器

11.逻辑回归算法、原理、公式推导及二分类、多分类实践

12.完全理解L1、L2正则化及其作用

13.决策树算法原理，随机森林，梯度提升树代码实践

14.多层感知机分类算法

15.SVM支持向量机分类算法

16.OneVsRest多分类算法

17.Naive Bayes朴素贝叶斯分类器

18.Linear Regression线性回归

19.GLMs广义线性模型

20.回归树

21.K-Means聚类算法

22.二分K均值分类

23.GMM高斯混合模型

24.基于ALS交替最小二乘的协同过滤推荐算法电影推荐实践

25.FP-Growth频繁项集推荐算法

26.超参数网格搜索

27.大数据生态圈的十年

「7项超值权益，保障学习质量」

大咖讲解

技术专家系统讲解传授编程思路与实战。

答疑服务

专属社群随时沟通与讲师答疑，扫清学习障碍，自学编程不再难。

课程资料+课件

超实用资料，覆盖核心知识，关键编程技能，方便练习巩固。（部分讲师考虑到版权问题，暂未上传附件，敬请谅解）

常用开发实战

企业常见开发实战案例，带你掌握Python在工作中的不同运用场景。

大牛技术大会视频

2019Python开发者大会视频免费观看，送你一个近距离感受互联网大佬的机会。

APP+PC随时随地学习

满足不同场景，开发编程语言系统学习需求，不受空间、地域限制。

「什么样的技术人适合学习？」

想进入互联网技术行业，但是面对多门编程语言不知如何选择，0基础的你
掌握开发、编程技术单一、冷门，迫切希望能够转型的你
想进入大厂，但是编程经验不够丰富，没有竞争力，程序员找工作难。

「悉心打造精品好课，29天学到大牛3年项目经验」

【完善的技术体系】

技术成长循序渐进，帮助用户轻松掌握

掌握Spark知识，扎实编码能力

【清晰的课程脉络】

浓缩大牛多年经验，全方位构建出系统化的技术知识脉络，同时注重实战操作。

【仿佛在大厂实习般的课程设计】

课程内容全面提升技术能力，系统学习大厂技术方法论，可复用在日后工作中。

「你可以收获什么？」

通过这门课程，带领广大学员入门大数据，胜任大数据Spark开发工作，熟悉Docker云计算容器技术，掌握Spark基于RDD的原理知识，熟练使用Spark Sql进行数据分析，挑战Spark ML机器学习。

订阅课程开始学习

学院导师-张敏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
视频教程-Python玩转大数据--105精讲视频-Spark

Python玩转大数据--105精讲视频大数据工程师/算法工程师/大数据讲...
复制链接

扫一扫

视频教程-Python玩转大数据--105精讲视频-Spark

扫码下载「CSDN程序员学院APP」，1000+技术好课免费看

APP订阅课程，领取优惠，最少立减5元 ↓↓↓

订阅后：请点击此处观看视频课程

视频教程-Python玩转大数据--105精讲视频-Spark

「口碑讲师带队学习，让你的问题不过夜」

讲师姓名：张敏

☛点击立即跟老师学习☚

「你将学到什么？」

「课程学习目录」

「7项超值权益，保障学习质量」

「什么样的技术人适合学习？」

「悉心打造精品好课，29天学到大牛3年项目经验」

「你可以收获什么？」