Spark_XQ_WYL的博客-CSDN博客

Spark

关注

关注数：文章数：4 文章阅读量：1710 文章收藏量：0

作者: XQ_WYL

这个作者很懒，什么都没留下…

展开

大数据入门之分布式计算框架Spark(1) -- Spark初次见面

1.Spark概念 Spark是一个基于内存的分布式计算框架。效率高：因为是基于内存的，所以在数据处理过程中，数据不会落地，而是存入内存中，效率较MR更高易用：提供了很多算子，简化开发流程通用性：Spark之上，还有Spark SQL、Spark Streaming、MLlib、GraphX这几个子框架去处理各种应用场景运行在各个地方：Sp...

原创 2019-08-01 11:58:59 · 488 阅读 · 1 评论
大数据入门之分布式计算框架Spark(2) -- Spark SQL

1.Spark SQL概述一个运行在Spark上执行sql的处理框架，可以用来处理结构化的数据【外部数据源（访问hive、json、parquet等文件的数据）】。 Spark SQL提供了SQL的API、DateFrame和DataSet的API 2.Spark SQL架构前端可以有不同种的访问方式，Hive AST传过来的就是一个字符串（解析成抽象语法树），在Catal...

原创 2019-08-01 18:57:24 · 553 阅读 · 0 评论
大数据入门之分布式计算框架Spark(3) -- Spark Streaming

1.概述 Spark Streaming将不同的数据源，经过处理之后，结果输出到外部文件系统。特点：低延时；能从错误中高效地恢复过来；能够运行在成百上千的节点上；能够将批处理、机器学习、图计算等子框架综合使用工作原理：粗粒度：Spark Streaming接收到实时数据流，把数据按照指定的时间段切成一片片小的数据块，然后把小的数据块传给Spark Engine处理。 ...

原创 2019-08-06 19:52:39 · 265 阅读 · 0 评论
大数据入门之分布式计算框架Spark(4) -- Spark Streaming整合Flume、Kafka

1.概述从AppServer产生log4j，Flume通过hostname/port收集日志信息，利用KafkaSink发送给Kafka，Kafka通过两种模式，传给Spark Streaming，完成各个业务维度的统计和分析，统计结果入库。 2.整合流程 vimstreaming.conf（仅供测试） agent1.sources=avro-source agent1.channe...

原创 2019-08-06 22:31:39 · 404 阅读 · 0 评论

Spark

作者: XQ_WYL

大数据入门之分布式计算框架Spark(1) -- Spark初次见面

大数据入门之分布式计算框架Spark(2) -- Spark SQL

大数据入门之分布式计算框架Spark(3) -- Spark Streaming

大数据入门之分布式计算框架Spark(4) -- Spark Streaming整合Flume、Kafka