Spark
文章平均质量分 75
深夜的猫213
这个作者很懒,什么都没留下…
展开
-
Spark-RDD实例
综合实例1.求TOP值假设在某个目录下有若干个文本文件,每个文本文件里面包含了很多行数据,每行数据由4个数字构成,不同数字之间用逗号隔开。如上:file1.txt和file2.txt里数据。rdd = sc.textFile("file:///home/hadoop/program1/data/file*") #读取文件内容rdd1 = rdd.flatMap(lambda x:x.split(",")) #用逗号分割数据rdd2 = rdd1.map(lambda x:(i原创 2022-04-10 15:33:37 · 3030 阅读 · 0 评论 -
Spark SQL简介
Spark SQL简介一、从Shark说起1、在这之前我们要先理解Hive的工作原理:Hive是一个基于Hadoop的数据仓库工具,提供了类似于关系数据库SQL的查询语言——HiveSQL,用户可以通过HiveSQL语句快速实现简单的MapReduce统计,Hive自身可以自动将HiveSQL语句快速转换成MapReduce任务进行运行。2、Shark提供了类似于Hive的功能,与Hive不同的是,Shark把SQL语句转换成Spark作业,而不是MapReduce作业。可以近似地认为:Shar原创 2022-04-04 20:23:07 · 20275 阅读 · 0 评论 -
RDD编程
RDD编程一、RDD编程基础1、RDD创建Spark采用textFile()方法从文件系统中加载数据创建RDD,该方法把文件的URI作为参数,这个URI可以是本地文件系统的地址、分布式文件系统HDFS的地址或者是AmazonS3地址等。(1)从文件系统中加载数据(2)从分布式文件系统HDFS中加载数据(3)通过并行集合(列表)创建RDD2.RDD操作RDD操作包含两种类型,即转换(Transformation)操作和行动(Action)操作(1)转换操作操作含义原创 2022-03-23 12:22:42 · 3641 阅读 · 0 评论 -
Spark运行WordCount例子
Spark运行WordCount例子(python)一:前提因为我们是在yarn上运行Spark,所以要有这个环境。文件是从hdfs上读取的,所以hadoop集群要搭建好(单机即可,不需要全分布式)。下面演示是我在一台机器(master)上运行的。另外代码用的是Python语言,在jupyter notebook上运行。二:上传文件1.查看本地文件:2.把本地文件hello.txt上传到hdfs上。命令:hadoop fs -put hello.txt /class_data3.在yar原创 2022-03-13 16:45:41 · 3651 阅读 · 0 评论 -
Spark的设计与运用原理
Spark的设计与运用原理一、概述Spark最初由美国加州大学伯克利分校的AMP实验室于2009年开发,是基于内存计算的大数据并行计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark具有如下几个主要特点:(1)运行速度快:Spark使用先进的有向无环图(DAG)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也要快十倍。(2)容易使用:Spark支持使用Scala、Java、Python、R语言进行原创 2022-03-13 15:43:55 · 3604 阅读 · 0 评论