Spark
文章平均质量分 91
OnTheRoad_Kang
比你优秀的还比你努力你有什么资格不去努力
展开
-
Spark学习了解CORE、RDD等,以及基于Hadoop2.7.5的伪分布式集群搭建Spark2.3的环境部署
环境准备 :JDK1.8Hadoop2.7.5(Hadoop伪分布式搭建博客)1、Spark概述Apache Spark 是专为大规模数据处理而设计的快递通用的计算引擎Spark是UC Berkeley AMP lab所开源的类似Hadoop MR 的通用并行框架,Spark拥有Hadoop MR所具有的特点,但不同于MR的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spa...原创 2018-05-20 21:43:06 · 10107 阅读 · 0 评论 -
与 Hadoop 对比,如何看待 Spark 技术?
Hadoop首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。 MapReduce通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的PC组成的不可靠...原创 2018-05-22 09:46:19 · 9606 阅读 · 0 评论 -
Spark Sql&DataFrame&RDD&DataSet
SparkSQL SparkSQL用来处理那些不能够用sql来进行处理的数据逻辑或者用sql处理起来比较复杂的数据逻辑。 使用sparkSQL是为了解决一般用sql不能解决的复杂逻辑,使用编程语言的优势来解决问题。 spark sql流程: 把数据读入到sparkSQL中,sparkSQL进行数据处理或者算法实现,然后再把处理后的数据输出到相应的输出源中。 数据源:hive数据仓库、json文...原创 2019-01-12 15:24:48 · 9790 阅读 · 0 评论 -
Spark Sql 聚合
聚合 DataFrames可以提供共同聚合,例如count(),countDistinct(),avg(),max(),min()等。虽然这些功能是专为DataFrames,星火SQL还拥有类型安全的版本,在其中的一些 斯卡拉和 Java的使用强类型数据集的工作。此外,用户不限于预定义的聚合函数,并且可以创建自己的聚合函数。 无用户定义的聚合函数 扩展UserDefinedAggregateFun...原创 2019-01-12 15:27:16 · 10128 阅读 · 0 评论 -
Spark Sql 性能调优
对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。 在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存中的列式格式来缓存表.dataFrame.cache()。然后,Spark SQL将仅扫描所需的列,并自动调整压缩以最小化内存使用和GC压力。可以调用spark.catalog.uncacheT...原创 2019-01-12 15:30:46 · 10018 阅读 · 0 评论