python公开课数据处理-大数据实时处理- 基于Python的Spark大数据处理技术

最新推荐文章于 2023-12-31 01:36:20 发布

weixin_39612554

最新推荐文章于 2023-12-31 01:36:20 发布

阅读量298

点赞数

互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论，成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候，我们在内部交易系统的历史信息之外，需要一种基于大数据实时分析的决策模型和技术支持。

大数据通常具有：数据体量(Volume)巨大,数据类型(Variety)繁多,价值(Value)密度低,处理速度(Velocity)快等四大特征。Google发布的GFS和MapReduce等高可扩展、高性能的分布式大数据处理框架，证明了在处理海量网页数据时该框架的优越性。在此基础上，Apache Hadoop开源项目开发团队，克隆并推出了Hadoop/Yarn系统。该系统已受到学术界和工业界的广泛认可和采纳，并孵化出众多子项目(如Hive，Zookeeper和Mahout等)，日益形成一个易部署、易开发、功能齐全、性能优良的系统。

近年来以Berkley牵头设计的Spark/BDAS技术，实现了内存级别的分布式处理模式，使用户无需关注复杂的内部工作机制，无需具备丰富的分布式系统知识及开发经验，即可实现大规模分布式系统的部署与大数据的并行处理。

Spark生态系统(BDAS项目)已经发展成一个，包含多个子项目的集合，包括Spark SQL、Spark Streaming、GraphX、MLlib等，本课程从大数据实时处理技术以及Spark实战的角度，结合理论和实践，全方位地介绍Spark大数据实时处理工具的原理和内核,包括Spark大数据计算框架、运行架构、设计模型和数据管理策略，及Spark在业界的应用。

课程中结合实例，介绍图工具GraphX如何发现社交网络中的人际关系，大数据挖掘工具MLlib如何进行商品聚类和电影推荐，以及Streaming流挖掘工具,并探讨了Spark与Docker等云环境下新技术的结合，分析了其应用前景。

本课程教学过程中还提供了案例分析来帮助学员了解如何用Spark实时大数据工具来解决业界的问题，并介绍了Spark生产环境搭建的相关知识。

本课程不是一个泛泛的理论性、概念性的介绍课程，而是针对问题讨论Spark解决方案的深入课程。教师对于上述领域有深入的理论研究与实践经验，在课程中将会针对这些问题与学员一起进行研究，在关键点上还会搭建实验环境进行实践研究，以加深对于这些解决方案的理解。通过本课程学习，希望推动Spark实时大数据处理开发上升到一个新水平。

本课程有企业内训形式，授课老师、课程内容、教学方式均依据企业的培训需求灵活设置。

本网站内容包括并不限于课程介绍、课程大纲、上课照片、老师介绍等等资料及信息，未经允许不得抄袭和转载。

weixin_39612554

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python公开课 数据处理-大数据实时处理- 基于Python的Spark大数据处理技术

python公开课数据处理-大数据实时处理- 基于Python的Spark大数据处理技术