Hadoop+Spark
文章平均质量分 87
唐风绸繆
这个作者很懒,什么都没留下…
展开
-
大数据Hadoop、spark笔记 第四章:流计算
spark是面向批处理的框架,将实时输入数据以时间片为单位拆分(拆分后称为Dstream---离散化数据流)并处理(RDD操作),以此实现流数据的处理。数据经流处理系统处理后的数据,可以流出给下一个环节继续处理,也可以把相关结果处理完以后就丢弃掉,或者存储到相关的存储系统当中去。数据来源众多,随时变化,快速持续到达,关注数据的整体价值不过分关注个体价值,数据价值随时间流逝。数据实时采集,数据实时计算,结果主动推送给用户,数据可能不需要存储。将数据存储在数据库,用户主动发出查询,得到结果。原创 2024-04-08 12:34:35 · 334 阅读 · 0 评论 -
大数据Hadoop、spark笔记 第三章:Spqrk应用基础
reduceByKey先生成(“spark”,[(6,1),(4,1)])然后lambda[(6,1),(4,1)]得到(Hadoop,(10,2)),意为hadoop两天共卖出10本。例:有两个表userdata和event,前者包含用户ID和用户数据(一个大表,有10000项),后者包含用户ID和用户行为(小表,有1000项)。重新分区,需传入两个参数:(分区数,自定义的分区类)。在实际处理数据时,大量数据会放在多个主机中,每个主机分别多线程处理数据,之后将处理好的数据汇总到一个master节点整合。原创 2024-04-08 12:32:54 · 520 阅读 · 0 评论 -
大数据Hadoop、spark笔记 第二章 spark设计与原理
Task Scheduler:负责每个stage里task的分配:ececutor启动后,Worker Node会主动向Task Scheduler申请任务,Task Scheduler负责分发。分发任务的基本原则:计算向数据靠拢---如果数据在机器A上,那么优先让机器A执行该任务,避免额外的数据传输开销。阶段Stage:Job的基本调度单位,一个job分为多组task,每组task称为一个stage/taskSet,代表一组关联的、没有依赖关系的任务集。YARN---应用最广。RDD是只读的,不能修改。原创 2024-04-08 12:28:38 · 655 阅读 · 0 评论 -
大数据Hadoop、spark笔记(一)
不会,二者根本不是对等的关系,spark可能取代MapReduce,但HDFS分布式存储机制没有什么缺陷。对数据进行不同的操作可能用到不同的技术,因此需要多种框架。在做流计算时spark只能用批处理模拟流模型,因此flink的流计算略快于spark。Hive:本身并不存储数据,可以理解为是一个编程接口,将SQL语句转化成对HDFS的命令。底层来看,spark效率更高。Spark:计算框架,可以实现批处理、流计算、机器学习、图计算等算法。使用大数据应具备的思维:全样而非抽样,效率而非精确,相关而非因果。原创 2024-04-08 12:27:36 · 425 阅读 · 0 评论