Spark
XQ_WYL
这个作者很懒,什么都没留下…
展开
-
大数据入门之分布式计算框架Spark(1) -- Spark初次见面
1.Spark概念 Spark是一个基于内存的分布式计算框架。 效率高:因为是基于内存的,所以在数据处理过程中,数据不会落地,而是存入内存中,效率较MR更高 易用:提供了很多算子,简化开发流程 通用性:Spark之上,还有Spark SQL、Spark Streaming、MLlib、GraphX这几个子框架去处理各种应用场景 运行在各个地方:Sp...原创 2019-08-01 11:58:59 · 488 阅读 · 1 评论 -
大数据入门之分布式计算框架Spark(2) -- Spark SQL
1.Spark SQL概述 一个运行在Spark上执行sql的处理框架,可以用来处理结构化的数据【外部数据源(访问hive、json、parquet等文件的数据)】。 Spark SQL提供了SQL的API、DateFrame和DataSet的API 2.Spark SQL架构 前端可以有不同种的访问方式,Hive AST传过来的就是一个字符串(解析成抽象语法树),在Catal...原创 2019-08-01 18:57:24 · 553 阅读 · 0 评论 -
大数据入门之分布式计算框架Spark(3) -- Spark Streaming
1.概述 Spark Streaming将不同的数据源,经过处理之后,结果输出到外部文件系统。 特点:低延时;能从错误中高效地恢复过来;能够运行在成百上千的节点上;能够将批处理、机器学习、图计算等子框架综合使用 工作原理: 粗粒度:Spark Streaming接收到实时数据流,把数据按照指定的时间段切成一片片小的数据块,然后把小的数据块传给Spark Engine处理。 ...原创 2019-08-06 19:52:39 · 265 阅读 · 0 评论 -
大数据入门之分布式计算框架Spark(4) -- Spark Streaming整合Flume、Kafka
1.概述 从AppServer产生log4j,Flume通过hostname/port收集日志信息,利用KafkaSink发送给Kafka,Kafka通过两种模式,传给Spark Streaming,完成各个业务维度的统计和分析,统计结果入库。 2.整合流程 vimstreaming.conf(仅供测试) agent1.sources=avro-source agent1.channe...原创 2019-08-06 22:31:39 · 404 阅读 · 0 评论