大数据-玩转数据-Spark
文章平均质量分 62
Spark分布式计算框架的技术实现
人猿宇宙
大数据\项目管理
展开
-
大数据-玩转数据-Spark-Structured Streaming 监控(python版)
大数据-玩转数据-Spark-Structured Streaming 监控(python版)查询时返回的StreamingQuery() 对象可以对查询进行监控,对象包括recentProgress,lastProgress,status等多个属性。代码举例#!/usr/bin/env python3from pprint import pprintimport timefrom pyspark.sql import SparkSessionfrom pyspark.sql.functi原创 2022-01-17 19:18:11 · 1466 阅读 · 0 评论 -
大数据-玩转数据-Spark-Structured Streaming 输出操作(python版)
大数据-玩转数据-Spark-Structured Streaming 输出操作(python版)1、说明Structured Streaming流计算过程定义的DataFrame/Dataset结果,通过writeStream()方法写入到输出接收器,接收器对应关系如下:接收器支持输出模式File接收器AppendKafka接收器Append、Complete、UpdateForeach接收器Append、Complete、UpdateConsole接收器原创 2022-01-17 18:46:22 · 1976 阅读 · 0 评论 -
大数据-玩转数据-Spark-Structured Streaming 数据源(python版)
大数据-玩转数据-Spark-Structured Streaming 数据源(python版)1、File 数据源支持文件格式有 .csv、.json 、.orc、.parquet、 .txt 等写一个Python 程序,生成模拟数据模拟电子商城的用户登录行为[root@hadoop1 temp]# vi sparkexampledata.py#模拟电子商城的用户登录行为#!/usr/bin/env python3#-*-coding: utf8-*-import randomimpo原创 2022-01-16 15:11:13 · 311 阅读 · 0 评论 -
大数据-玩转数据-Spark-Structured Streaming 简述及编程初步(python版)
大数据-玩转数据-Spark-Structured Streaming 简述及编程初步一、简述:Structured Streaming 是基于Spark SQL引擎构建的、可扩展且容错性高的流处理引擎。它以检查点和预写日志记录每个触发时间正处理数据的偏移范围,保证端到端数据的一致性。Spark2.3.0版本引入持续流失处理模型后,可将数据延迟降低到毫秒级。Structured Streaming默认处理模型是微批处理模型,它是将当前一批作业处理完成后,记录日志偏移量后才启动下一批作业,延迟超过100毫原创 2022-01-15 15:48:32 · 917 阅读 · 0 评论 -
大数据-玩转数据-Spark Streaming 数据输出(python版)
大数据-玩转数据-Spark Streaming 数据输出外部系统需要使用Spark Streaming处理后的数据,这些数据在输出可以存储到文本文件或关系数据库中1、输出到文本文件中把DStream输出到文本文件,可直接调用saveAsTextFile()方法,下面是词频统计存储到文本文件的代码实现。数据终端执行nc[root@hadoop1 temp]# nc -lk 9999hadoopsparkhadoop hadoophivekafka流计算终端[root@hadoop原创 2022-01-14 18:37:18 · 701 阅读 · 1 评论 -
大数据-玩转数据-Spark-DStream转换操作说明(python版)
大数据-玩转数据-Spark-DStream转换操作(python版)数据流到达时,Spark Streaming 会把连续的数据分段,然后对分段内的DStream进行转换操作。一、DStream无状态转换操作无状态转换操作,不会记录历史状态,每个批次进行单独记录,批次与批次之间没有联系,不会进行历史累计。常用DStream无状态转换操作map(func)用func函数将源DStream进行转换,得到新的DStreamflatMap(func)与map相似,但每个输入项可映射到0个或多个输原创 2022-01-13 22:17:48 · 1121 阅读 · 0 评论 -
大数据-玩转数据-Spark Streaming Kafka数据流(python版)
大数据-玩转数据-Spark Streaming Kafka数据流(python版)一、Spark融合Kafka[root@hadoop1 jars]# cd /home/hadoop/spark/jars[root@hadoop1 jars]# mkdir kafka根据原安装的spark及scala版本下载 spark-streaming-kafka-0-8_2.11-2.4.0.jar 到 新建的kafka目录拷贝kafka/libs下所有包到新建的kafka目录[root@hado原创 2022-01-12 22:43:40 · 770 阅读 · 0 评论 -
大数据-玩转数据-Spark Streaming RDD队列流(python版)
大数据-玩转数据-Spark Streaming RDD队列流(python版)对与RDD队列流的调用我们用streamingContext.queueStream(queueOfRDD)创建基于RDD的Dstream每隔1s创建一个RDD,加到队列里,每隔2s对Dstream进行处理#!/usr/bin/env python3form pyspark import SparkContextfrom pyspark.streaming import StreamingContextimport原创 2022-01-11 12:33:37 · 524 阅读 · 0 评论 -
大数据-玩转数据-Spark Streaming 套接字流(python版)
大数据-玩转数据-Spark Streaming 套接字流(python版)网络中大量数据交换都是通过套接字实现的。使用套接字作为数据源from pyspark import SparkContextfrom pyspark.streaming import StreamingContextimport sysif __name__ == "__main__": if len(sys.argv) != 3: print("please input原创 2022-01-10 19:54:12 · 650 阅读 · 0 评论 -
大数据-玩转数据-Spark Streaming 文件流(python版)
大数据-玩转数据-Spark Streaming 文件流(python版)一、pyspark模式编程[root@hadoop1 ~]# pyspark>>> from pyspark import SparkContext>>> from pyspark.streaming import StreamingContext>>> ssc = StreamingContext(sc,10)>>> lines = ssc.tex原创 2022-01-10 17:41:44 · 559 阅读 · 0 评论 -
大数据-玩转数据-Hadoop+Storm与Spark架构方案比较
大数据-玩转数据-Hadoop+Storm与Spark架构方案比较Hadoop+Storm方案结构图Spark方案结构图Hadoop的数据处理工作在硬盘层面,借助HDFS(分布式文件系统),可以将架构下每一台电脑中的硬盘资源聚集起来,之后使用集群管理和调度软件YARN,最后利用Map/Reduce计算框架,就可以在这上面进行计算编程。由于Hadoop的计算过程放在硬盘,受制于硬件条件限制,数据的吞吐和处理速度明显不如使用内存来的快。Spark和Storm两者最大的区别在于实时性:Spark是准原创 2022-01-10 15:21:45 · 658 阅读 · 0 评论 -
大数据-玩转数据-Spark-SQL编程基础(python版)
大数据-玩转数据-Spark-SQL编程基础(python版)说明:Spark SQL是Spark用来处理结构化数据的一个模块,它将Spark SQL转换成RDD,然后提交到Spark集群执行,执行速度快,对原有Hadoop生态兼容性好。Spark-SQL所用数据抽象为DataFrame,是一种以RDD为基础的分布式数据集,相当于关系数据库的表。一、创建和保存DataFrame独立应用编程时候,可以先创建一个SparkSession对象,再进行数据的读取和存储操作。[root@hadoop1 tem原创 2022-01-09 20:51:33 · 890 阅读 · 0 评论 -
大数据-玩转数据-Spark-RDD编程基础-数据读写(python版)
大数据-玩转数据-Spark-RDD编程基础-数据读写(python版)一、本地数据读写读取本地文件>>> textFile = sc.textFile("file:///home/hadoop/temp/word.txt")>>> textFile.first()'Hadoop is good' >>> 写入本地原创 2022-01-08 23:12:37 · 622 阅读 · 0 评论 -
大数据-玩转数据-Spark-RDD编程基础-键值对RDD(python版)
大数据-玩转数据-Spark-RDD编程基础-键值对RDD(python版)每个RDD都是一个(key,value)类型,可以应用于很多场景,是一种常见的RDD类型。1、创建键值对(1)、从文件中加载生成键值对>>> lines = sc.textFile("file:///home/hadoop/temp/word.txt")>>> pairRDD = lines.flatMap(lambda line:line.split(" ")).map(lambda原创 2022-01-07 22:12:06 · 504 阅读 · 0 评论 -
大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区(python版)
大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区一、持久化根据Spark的RDD惰性计算机制,每次调用行动计算,都将触发一次从头计算,对于迭代计算,资源消耗代价较大 。我们可以用持久化(缓存)机制来避免这种重复计算。persis(MEMORY_ONLY):将RDD对象作为反序列化对象存储在JVM,如果内存不足,用LRU原则替换缓存中的内容。persis(MEMORY_AND_DISK): 将RDD对象作为反序列化对象存储在JVM,如果内存不足,超出部分存储在硬盘。而**cache原创 2022-01-07 17:45:52 · 427 阅读 · 0 评论 -
大数据-玩转数据-Spark-RDD编程基础-RDD操作(python版)
大数据-玩转数据-Spark-RDD编程基础-RDD操作(python版)RDD操作包括两种类型:转换(Transformation)和行动(Action)1、转换操作RDD每次转换操作都会都会产生新的RDD,供下一转换或行动使用,所以叫惰性求值,转换只记录了轨迹,不执行,行动才执行。常用的RDD转换操作APIfilter(func) : 筛选出满足func函数的元素,并返回一个新的数据集map(func):将每个元素传递到函数func中,并将结果返回已个新的数据集flatMap(func):原创 2022-01-06 22:35:10 · 1038 阅读 · 1 评论 -
大数据-玩转数据-Spark-RDD编程基础-RDD创建(python版)
大数据-玩转数据-Spark-RDD编程基础-RDD创建(python版)本章为hadoop+spark+yarn 的pyspark交互式环境。[root@hadoop1]# cd /home/hadoop/spark/bin[root@hadoop1 bin]# pyspark默认本地启动pyspark一、RDD创建Spark采用textFile()方法从文件系统中加载数据创建RDD1、从文件系统中加载数据创建RDD(1)、从本地文件加载>>> lines = sc.原创 2022-01-06 18:29:01 · 1620 阅读 · 0 评论 -
大数据-玩转数据-windows下python开发spark(pycharm)环境搭建
大数据-玩转数据-python开发spark(pycharm)环境搭建说明:需要在windows系统下开发spark程序,然后迁移程序到linux生产环境运行。1.安装好JDK下载并安装jdk-17_windows-x64_bin.exe配置环境变量:JAVA_HOME,值为Java安装路径C:\Program Files\Java\jdk-17.0.1;系统变量CLASSPATH .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意原创 2021-12-31 20:30:10 · 1180 阅读 · 0 评论 -
大数据-玩转数据-Intellij IDEA搭建Scala开发环境
大数据-玩转数据-Intellij IDEA搭建Scala开发环境说明:操作系统 windows7一、下载安装JDK版本Oracle官网下载JDK的地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html选择32或64位下载,下载之前请先勾选“ Accept License Agreement ”。下载完成后直接点击你下载下来的文件安装,默认的安装步骤,直到安装完成。配置环境变量找到你桌面上的“计算机”图标-右原创 2021-12-29 21:24:56 · 1110 阅读 · 0 评论 -
大数据-玩转数据-Spark-RDD
大数据-玩转数据-Spark-RDD(一)关于RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,一组分片(Partition),即数据集的基本组成单位,Spark中RDD的计算是以分片为单位的,每个RDD都会实现compute函数以达到这个目的,RDD的每次转换都会生成一个新的RDD,所以RDD之间就会形成类似于流水线一样的前后依赖关系,在部分分区数据丢失时,Spark可以通过这个依赖关系重新计算丢失的分区数据,而不是对RDD的所有分区进行重新计算,一个Pa原创 2021-12-27 20:23:49 · 245 阅读 · 0 评论 -
大数据-玩转数据-Scala编写WordCount程序上传到集群运行
大数据-玩转数据-Scala编写WordCount程序上传到集群运行一.程序打开IDEA,新建一个maven工程点击next,继续填写项目组织名和项目名,点击next继续。。。组织名例如:com.baidu.spark项目名例如:SparkTest然后点击完成就可以了。建立完maven项目,左侧栏出现该项目目录结构:首先打开pom.xml,这个是maven的配置信息,里面可以放插件配置,将下面内容写进这个文件:<?xml version="1.0" encoding="UTF-8"原创 2021-12-26 21:37:11 · 395 阅读 · 0 评论 -
大数据-玩转数据-Spark集群安装高可用
大数据-玩转数据-Spark集群安装高可用说明:在前已经安装完成hadoop,zookeeper,spark基础上。1.修改 /conf/spark-env.sh 配置export JAVA_HOME=/home/hadoop/apps/jdk1.8.0_201#export SCALA_HOME=/opt/scala #export SPARK_MASTER_IP=192.168.80.2#export SPARK_MASTER_PORT=7077export SPARK_WORKER_CO原创 2021-12-26 12:33:01 · 529 阅读 · 0 评论 -
大数据-玩转数据-Yarn 与StandAlone调度对比
大数据-玩转数据-Yarn 与StandAlone调度对比MapReduce中的maptask和reducetask都是在YarnChild中进行计算的,YarnChild是一个进程,使用jps命令可以看到它们的区别:1.yarnSparkResourceManagermaster作用:管理子节点,资源调度,接收任务请求2.yarnsparknodemanagerworker管理当前节点,并管理子进程对于nodemanager来说,子进程原创 2021-12-23 19:40:32 · 830 阅读 · 0 评论 -
大数据-玩转数据-Spark分布式安装
大数据-玩转数据-Spark分布式安装说明:之前已经安装配置过了 Hadoop 的 hdfs,yarn 分布式集群,在此基础上进行spark的安装(基于jvm,可以不安装scala)1.安装spark1.1下载Spark安装包:去官网下载 :Download Spark: spark-2.1.1-bin-hadoop2.6.tgz下载地址:http://spark.apache.org/downloads.html1.2上传解压:在上传目录下[root@hadoop1 ]# tar -z原创 2021-12-21 18:33:39 · 532 阅读 · 0 评论 -
大数据生态圈-Spark理论知识
大数据生态圈-Spark理论知识(一)官网地址:http://spark.apache.org/Apache Spark 是用于大规模数据分布式计算的框架。内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。扩展了广泛使用的MapReduce计算模型。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。(二)Spark 的四大特性1、及时性运行速度提高100倍。Apache Spark使用最先进的DAG调度程转载 2021-12-15 16:01:55 · 270 阅读 · 0 评论