spark
文章平均质量分 85
qq_38799155
愿我的一点微薄之力可以帮到你
展开
-
在windowns下安装Anaconda3运行spark
1. 准备工作1.1需要的软件: Anaconda3-5.0.0-Windows-x86_64 hadoop-2.7.4 jdk1.8+ spark-2.2.0-bin-hadoop2.71.2下载软件 Anaconda 官网下载地址:https://www.continuum.io/downloads 目前最新版本是 python 3.6,默认下载也是 Python 3.6,百度网原创 2017-10-16 21:21:02 · 5465 阅读 · 1 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和b原创 2017-10-28 18:22:20 · 433 阅读 · 0 评论 -
spark中groupByKey 和reduceByKey 的区别:
他们都是要经过shuffle的,groupByKey在方法shuffle之间不会合并原样进行shuffle,。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送,所以效率高一点。object GroupyKeyAndReduceByKeyDemo { def main(args: Array[String]): Unit = { Logg原创 2018-05-03 12:03:54 · 4549 阅读 · 1 评论 -
spark-1.6.x的学习总结
官方定义:spark是一个基于内存的分布式计算框架 它会使得计算速度以及开发速度快! 特点: One stack rule them all ! 一站解决所有问题 热查询(Hive) 批处理(MapReduce) 实时流计算(Storm) 回顾MapReduce 的 Shuffle过程 见图 hadoop慢的原因: 1、基于内存 2、DAG的优化 运行模式: ...原创 2018-07-05 23:23:48 · 316 阅读 · 0 评论