大数据/Spark
文章平均质量分 77
Spark
u013250861
这个作者很懒,什么都没留下…
展开
-
大数据-计算引擎-实时数据分析框架:SparkStreaming【DStream编程(Discretized Stream);一个 DSteam 是由一连串 RDD 序列组成;准实时(秒级别)】
大数据-计算引擎-Spark:SparkStreaming【用于实时分析】原创 2021-01-15 00:10:28 · 598 阅读 · 0 评论 -
大数据-计算引擎-离线数据分析框架:SparkSQL【替代SparkRDD处理“结构化数据”;使用DataFrame/DataSet编程;机制是将SparkSQL转成RDD程序;集成HiveSQL】
数值最优化方法01原创 2021-01-14 00:11:52 · 1073 阅读 · 0 评论 -
大数据-计算引擎-Spark(一):概述【基于内存的大数据分析引擎】【核心模块:Spark Core、Spark SQL、Spark Streaming、Spark MLlib、GraphX】
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在之前的学习中,Hadoop 的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架 Spark 呢,这里就不得不提到 Spark 和 Hadoop 的关系。➢ Hadoop➢ Spark➢ Hadoop➢ Spark由上面的信息可以获知,Spark 出现的时间相对较晚,并且主要功能主要是用于数据计算,所以其实 Spark 一直被认为是 Hadoop 框架的升级版。Hadoop 的 MR 框架和 Spark 框架原创 2022-06-03 20:27:06 · 773 阅读 · 0 评论 -
大数据-计算引擎-Spark(二):Spark安装与配置【Local模式、Standalone模式、Yarn模式】
大数据-计算引擎:Spark安装与配置【Local模式】原创 2021-01-30 23:11:48 · 697 阅读 · 0 评论 -
大数据-计算引擎-Spark(三):RDD编程【离线分析;替代MapReduce编程,使用RDD(弹性分布式数据集)编程;处理非结构化数据;RDD操作算子:transformation、Action】
大数据-计算引擎-Spark:Spark编程原创 2021-01-12 23:00:38 · 1210 阅读 · 0 评论 -
大数据-计算引擎-Spark(四):原生Spark(基于Scala语言)、Pyspark(使用Python定义的Api接口来调用底层Scala代码)对比
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某原创 2022-06-03 22:18:28 · 1176 阅读 · 0 评论 -
Spark on Hive【S负责SQL解析和优化(SparkSQL)、计算引擎;H只负责存储元数据;主流方式】、Hive on Spark【H负责SQL解析和优化、存储元数据;S充当计算引擎】
具体可以理解为spark通过sparkSQL使用hive语句操作hive表,底层运行的还是sparkRDD,hive只作为存储角色,spark 负责sql解析优化,底层运行的还是sparkRDD。1.通过sparkSQL,加载Hive的配置文件,获取Hive的元数据信息。hive既作为存储又负责sql的解析优化,spark负责执行。2.获取到Hive的元数据信息之后可以拿到Hive表的数据。这里Hive的执行引擎变成了spark,不再是MR。3.通过sparkSQL来操作Hive表中的数据。原创 2023-04-10 23:20:06 · 104 阅读 · 0 评论 -
pyspark实现csv文件转parquet格式(最优解决方案)
自动判断各个csv文件字段的数据类型生成parquet文件(inferSchema=‘True’)需要自己判断数据的格式然后自定义schema。原创 2022-08-05 08:04:48 · 610 阅读 · 0 评论 -
PySpark的存储不同格式文件
PySpark的存储不同格式文件,如:存储为csv格式、json格式、parquet格式、compression格式、tablefrom。原创 2022-08-05 08:03:40 · 897 阅读 · 0 评论 -
PySpark的运行出错:Py4JJavaError【python为3.9==>pyspark版本为3.0】
对策Python的安装目录里面复制python.exe,并改名为python3.exe。原创 2022-08-02 21:34:48 · 1880 阅读 · 0 评论