![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
NICEDAYSS
do one more thing
公众号:N个程序猿的日常 欢迎关注
展开
-
Spark系列(十)Shuffle的技术难点问题--Spark比MapReduce快的真正原因
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.原创 2020-09-23 12:16:29 · 573 阅读 · 0 评论 -
Spark 系列(八)SparkSQL和集成数据源-及简单优化方案----简化工作的利器!!
文章目录SparkSQL和集成数据源-及简单优化:SparkSQL优化器--Catalyst Optimizer具体流程:Spark SQL API :具体优化流程:原流程:优化流程:DataSet与DataFrame操作Spark SQL操作外部数据源Parquet文件:Hive数据源集成:Mysql数据源集成:Spark函数UDF使用:Spark性能优化一:序列化:二:使用对象数组三:避免嵌套结构四:尽量使用数字作为Key,而非字符串五:以较大的RDD使用MEMORY_ONLY_SER六:加载CSV、J原创 2020-08-12 11:03:04 · 755 阅读 · 2 评论 -
Spark系列 (七)SparkGraphX下的Pregel方法----完美解决单源最短路径的应用算法
文章目录Pregel框架:一:Spark GraphX Pregel:二:Pregel计算过程:Pregel函数源码及各个参数解析:三:案例:单源最短路径第一步:调用pregel方法:第二步:第一次迭代:第三步:第二次迭代:第四步:不断迭代,直至所有顶点处于钝化态案例代码如下:Pregel框架:一:Spark GraphX Pregel:Pregel是google提出的用于大规模分布式图计算框架图遍历(bfs)单源最短路径(sssp)pageRank计算Pregel的计算有一系列迭代组原创 2020-08-07 00:26:42 · 1491 阅读 · 2 评论 -
Spark系列 (五)Spark-GraphX的基本介绍与算子的简单使用---网络红人排名实例分解
Spark GraphX:一:图的概念:图由顶点集合(vertex)及顶点间的关系集合(边edge) 组成的网状数据结构表示为二元组: Graph = (V, E)可以对事物之间的关系建模应用场景:在地图应用中寻找最短路径社交网络关系网页间超链接关系1.邻接矩阵—————稠密图的存储(存边多)2.邻接表 —————稀疏图的存储(存顶点多或者边少)3.十字链表—————邻接表的升级版4.邻接多重表————邻接矩阵的升级版二:Spark GraphX 数据模型:G原创 2020-08-04 19:06:50 · 1372 阅读 · 0 评论 -
Spark系列 (四)第一部分:RDD-DataSet-DataFrame你究竟该用哪个?应该如何使用API??
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.原创 2020-07-29 19:35:00 · 630 阅读 · 0 评论 -
Spark系列(三)更快一点--Spark运行处理数据原理,如何简单提高并行度??
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.原创 2020-07-29 19:27:56 · 689 阅读 · 0 评论 -
Spark系列 (二)结构化API--DataFrame常见的业务操作
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.原创 2020-07-29 11:26:05 · 864 阅读 · 0 评论 -
Spark系列(一)Spark简介与架构以及Spark安装流程(单机版和分布式版)---轻松上手Spark流处理
写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自world order乐队的一首HAVE A NICE DAY。如今,走到现在很多坎坷和不顺,如今终于明白nice day是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习感兴趣,可以关注我的动态 https://blog.csdn.net/qq_35050438,让我们一起挖掘数据与.原创 2020-07-25 17:08:10 · 320 阅读 · 0 评论