大数据实时处理-基于Spark的大数据实时处理及应用技术

最新推荐文章于 2024-05-23 17:10:57 发布

计算所培训中心

最新推荐文章于 2024-05-23 17:10:57 发布

阅读量5.9k

点赞数

文章标签：大数据 IT培训企业培训企业内训 Spark

本文链接：https://blog.csdn.net/tcict/article/details/50856130

版权

本课程深入讲解Spark大数据实时处理技术，涵盖Spark的实时处理、生态系统、架构、Scala编程、分布式计算框架、内部机制、数据读取与存储、通信容错、SQL支持、流处理和大数据挖掘工具等内容。通过理论与实践结合，帮助学员掌握Spark在业界的应用，提升大数据处理能力。

摘要由CSDN通过智能技术生成

培训要点

互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论，成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候，我们在内部交易系统的历史信息之外，需要一种基于大数据实时分析的决策模型和技术支持。

大数据通常具有：数据体量(Volume)巨大,数据类型(Variety)繁多,价值(Value)密度低,处理速度(Velocity)快等四大特征。Google发布的GFS和MapReduce等高可扩展、高性能的分布式大数据处理框架，证明了在处理海量网页数据时该框架的优越性。在此基础上，Apache Hadoop开源项目开发团队，克隆并推出了Hadoop/Yarn系统。该系统已受到学术界和工业界的广泛认可和采纳，并孵化出众多子项目(如Hive，Zookeeper和Mahout等)，日益形成一个易部署、易开发、功能齐全、性能优良的系统。

近年来以Berkley牵头设计的Spark/BDAS技术，实现了内存级别的分布式处理模式，使用户无需关注复杂的内部工作机制，无需具备丰富的分布式系统知识及开发经验，即可实现大规模分布式系统的部署与大数据的并行处理。

Spark生态系统(BDAS项目)已经发展成一个，包含多个子项目的集合，包括Spark SQL、Spark Streaming、GraphX、MLlib等，本课程从大数据实时处理技术以及Spark实战的角度，结合理论和实践，全方位地介绍Spark大数据实时处理工具的原理和内核,包括Spark大数据计算框架、运行架构、设计模型和数据管理策略，及Spark在业界的应用。

课程中结合实例，介绍图工具GraphX如何发现社交网络中的人际关系，大数据挖掘工具MLlib如何进行商品聚类和电影推荐，以及Streaming流挖掘工具,并探讨了Spark与Docker等

最低0.47元/天解锁文章

计算所培训中心

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据实时处理-基于Spark的大数据实时处理及应用技术

培训要点互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论，成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候，我们在内部交易系统的历史信息之外，需要一种基于大数据实时分析的决策模型和技术支持。大数据通常具有：数据体量(Volume)巨大,数据类型(Variety)繁多,价值(Value)密度低,处理速度(Velocity)快等四大特征。Goo
复制链接

扫一扫