➹➹➹⑤Spark
文章平均质量分 51
爱是与世界平行
努力钻研学习中................
展开
-
Spark的运行指标监控
".driver.BlockManager.disk.diskSpaceUsed_MB")//使用的磁盘空间".driver.BlockManager.memory.maxMem_MB") //使用的最大内存".driver.BlockManager.memory.memUsed_MB")//内存使用情况".driver.BlockManager.memory.remainingMem_MB...原创 2020-03-20 14:54:15 · 834 阅读 · 0 评论 -
Spark 应用监控告警-Graphite_exporter
Spark 应用监控告警-Graphite_exporter一、下载graphite_exporter1.1 修改graphite_exporter_mapping1.2 启动graphite_exporter二、Spark配置Graphite metrics三、启动Spark程序四、配置Prometheus4.1 查看Prometheus是否收集到metrics数据五、Metrics分析六、Gr...原创 2020-03-18 15:40:17 · 3846 阅读 · 2 评论 -
SparkMLlib—协同过滤之交替最小二乘法ALS原理与实践
SparkMLlib—协同过滤之交替最小二乘法ALS原理与实践一、Spark MLlib算法实现1.1 显示反馈1.1.1 基于RDD1.1.2 基于DataFrame1.2 隐式反馈二、Spark中MLlib中的ALS算法物品推荐代码实现;相关内容原文地址:CSDN:leboop:Spark MLlib协同过滤之交替最小二乘法ALS原理与实践CSDN:Jantelope:Spark中ML...原创 2019-12-25 16:11:49 · 1076 阅读 · 0 评论 -
SparkMLlib—协同过滤推荐算法,电影推荐系统,物品喜好推荐
MLlib——协同过滤推荐算法一、协同过滤1.1 显示vs隐式fankui1.2 实例介绍1.2.1 数据说明评分数据说明(ratings.data)用户信息(users.dat)电影信息(movies.dat)程序代码相关内容原文地址:博客园:Lemon_Qin:MLlib-协同过滤博客园:大数据和AI躺过的坑:Spark MLlib协同过滤算法一、协同过滤协同过滤(Collabo...原创 2019-12-20 14:54:18 · 2544 阅读 · 1 评论 -
Spark Pipeline
Spark Pipeline一、Spark Pipeline1.1 机器学习管道(Pipeline)1.2 数据管道组件构成1.3 构建Pipeline1.4 预测Pipeline一、Spark Pipeline1.1 机器学习管道(Pipeline)由一系列阶段构成,每个阶段是Transformer或Estimator,它们串联到一起按照顺序执行。1.2 数据管道组件构成Transfo...原创 2019-12-18 14:04:21 · 639 阅读 · 0 评论 -
Spark MLlib
Spark MLlib一、Spark MLlib模型选择与调参CrossValidatorTrainValidationSplit部分内容原文地址:掘金:美图数据团队:从Spark MLlib到美图机器学习框架实践一、Spark MLlib在 Spark 官网上展示了逻辑回归算法在 Spark 和 Hadoop 上运行性能比较,从下图可以看出 MLlib 比 MapReduce 快了 ...原创 2019-12-18 09:22:15 · 864 阅读 · 0 评论 -
Linux命令之Crontab定时任务,利用Crontab定时执行spark任务
Spark:使用Crontab定时执行Spark任务一、使用Crontab定时执行Spark任务一、使用Crontab定时执行Spark任务CSDN:Trigl使用Crontab定时执行Spark任务原创 2019-11-04 11:32:56 · 1309 阅读 · 0 评论 -
Spark JDBC系列--取数的四种方式
Spark JDBC系列--取数的四种方式一、单分区模式二、指定Long型column字段的分区模式三、高自由度的分区模式四、自定义option参数模式原文地址:简书:wuli_小博:Spark JDBC系列–取数的四种方式一、单分区模式函数:def jdbc(url: String, table: String, properties: Properties): DataFrame...原创 2019-11-04 11:02:11 · 1967 阅读 · 1 评论 -
Spark Streaming状态管理函数updateStateByKey和mapWithState
Spark Streaming状态管理函数updateStateByKey和mapWithState一、状态管理函数二、mapWithState2.1关于mapWithState2.2mapWithState示例Scala:2.3mapWithState算子应用示例2.4mapWithState应用示例三、updateStateByKey3.1关于updateStateByKey3.2update...原创 2019-10-31 10:18:15 · 1061 阅读 · 2 评论 -
Spark调优 | Spark Streaming 调优
Spark调优 | Spark Streaming 调优1、数据序列化2、广播大变量3、数据处理和接收时的并行度4、设置合理的批处理间隔5、内存优化5.1 内存管理5.2优化策略5.3垃圾回收(GC)优化5.5Spark Streaming 内存优化6、实例项目调优6.1合理的批处理时间(batchDuration)6.2合理的 Kafka 拉取量(maxRatePerPartition 参数设置...转载 2019-10-22 14:59:44 · 890 阅读 · 0 评论 -
Spark动态加载外部资源文件
Spark动态加载外部资源文件1、spark-submit --files 动态加载外部资源文件之前做一个关于Spark的项目时,因项目中需要读取某个静态资源文件,然后在本地IDEA测试一切皆正常,但是传到服务器上时,一直显示找不到该静态资源文件,后尝试了两三种方法解决问题。本地测试时,通过val is: InputStream = this.getClass.getResourceAsSt...原创 2019-10-14 09:26:57 · 1680 阅读 · 0 评论 -
Spark程序使用Scala进行单元测试
Spark程序使用Scala进行单元测试1、Rdd测试2、无返回值方法测试3、测试私有方法原文作者:大葱拌豆腐原文地址:Spark程序进行单元测试-使用scala1、Rdd测试spark程序一般从集群中读取数据然后通过rdd进行转换,这其中涉及到集群,每次修改bug,上传到集群再运行测试,代价还是挺大;所以尽可能先本地进行单元测试,以减少在集群上运行时错误,特别是map等各种tra...转载 2019-10-14 09:18:57 · 1101 阅读 · 0 评论 -
Spark共享变量(广播变量、累加器)
Spark共享变量,广播变量、累加器1、共享变量出现的原因2、广播变量的引入2.1广播变量的用法2.2案例如下:2.3注意事项3、累加器的作用3.1常用场景3.2累加器的用法3.3案例如下:3.4注意事项原文作者:SunnyRivers原文地址:Spark共享变量(广播变量、累加器)Spark两种共享变量:广播变量(broadcast variable)与累加器(accumulato...转载 2019-10-14 09:14:09 · 350 阅读 · 0 评论 -
Spark获取DataFrame中列的方式--col,$,column,apply
Spark获取DataFrame中列的方式--col,$,column,apply1、官方说明2、使用时涉及到的的包3、Demo原文作者:大葱拌豆腐原文地址:Spark获取DataFrame中列的几种姿势–col,$,column,apply1、官方说明df("columnName") // On a specific DataFrame. col("c...转载 2019-10-14 09:05:17 · 5177 阅读 · 0 评论 -
SparkSql 数据类型转换
SparkSql 数据类型转换1、SparkSql数据类型1.1数字类型1.2复杂类型2、Spark Sql数据类型和Scala数据类型对比3、Spark Sql数据类型转换案例3.1获取Column类3.2测试数据准备3.3spark入口代码3.4测试默认数据类型3.5把数值型的列转为IntegerType3.6Column类cast方法的两种重载原文作者:SunnyRivers原文地址...转载 2019-10-14 08:52:31 · 22952 阅读 · 0 评论 -
Spark SQL DataFrame新增一列的四种方法
Spark SQL DataFrame新增一列的四种方法方法一:利用createDataFrame方法,新增列的过程包含在构建rdd和schema中方法二:利用withColumn方法,新增列的过程包含在udf函数中方法三:利用SQL代码,新增列的过程直接写入SQL代码中方法四:以上三种是增加一个有判断的列,如果想要增加一列唯一序号,可以使用monotonically_increasing_id...转载 2019-10-13 16:57:16 · 3294 阅读 · 3 评论 -
Spark Straming,Spark Streaming与Storm的对比分析
Spark Straming,Spark Streaming与Storm的对比分析一、大数据实时计算介绍二、大数据实时计算原理三、Spark Streaming简介四、Spark Streaming基本工作原理五、DStream六、Spark Streaming与Storm的对比分析6.1 与Storm的对比6.2 Spark Streaming与Storm的优劣分析一、大数据实时计算介绍Sp...原创 2019-06-20 11:00:30 · 985 阅读 · 0 评论 -
Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作
Spark-读写HBase1.sparkstreaming实时写入Hbase(saveAsNewAPIHadoopDataset方法)2.sparkstreaming整合kafka实现exactly-once语义3.sparkstreaming同时消费多个topic的数据实现exactly-once的语义4.spark读取hbase数据(newAPIHadoopRDD方式)原文作者:JasonL...原创 2019-09-07 16:11:26 · 1118 阅读 · 0 评论 -
Idea里面远程提交spark任务到yarn集群
Idea里面远程提交spark任务到yarn集群1.本地idea远程提交到yarn集群2.运行过程中可能会遇到的问题2.1首先需要把yarn-site.xml,core-site.xml,hdfs-site.xml放到resource下面,因为程序运行的时候需要这些环境2.2权限问题2.3缺失环境变量2.4 没有设置driver的ip2.5保证自己的电脑和虚拟机在同一个网段内,而且要关闭自己电脑的...转载 2019-09-07 16:33:18 · 5902 阅读 · 2 评论 -
Spark 将DataFrame所有的列类型改为double
Spark 将DataFrame所有的列类型改为double1.单列转化方法2.循环转变3.通过:_*1.单列转化方法import org.apache.spark.sql.types._val data = Array(("1", "2", "3", "4", "5"), ("6", "7", "8", "9", "10"))val df = spark.createDataFrame(...转载 2019-09-09 16:53:08 · 744 阅读 · 0 评论 -
SparkStreaming直连方式读取kafka数据,使用MySQL保存偏移量
SparkStreaming直连方式读取kafka数据,使用MySQL保存偏移量1. ScalikeJDBC2.配置文件3.导入依赖的jar包4.源码测试通过MySQL保存kafka的偏移量,完成直连方式读取数据使用scalikeJDBC,访问数据库。1. ScalikeJDBCScalikeJDBC 是一款Scala 开发者使用的简洁 DB 访问类库,它是基于 SQL 的,使用者只需要关...转载 2019-09-09 17:08:27 · 739 阅读 · 0 评论 -
Spark调优,性能优化
Spark调优1.使用reduceByKey/aggregateByKey替代groupByKey2.使用mapPartitions替代普通map3.使用foreachPartitions替代foreach4.使用filter之后进行coalesce操作5.使用repartitionAndSortWithinPartitions替代repartition与sort类操作6.使用broadcast使...原创 2019-09-20 10:15:07 · 441 阅读 · 0 评论 -
Spark Dataset DataFrame空值null,NaN判断和处理
Spark Dataset DataFrame空值null,NaN判断和处理import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apa...转载 2019-09-20 15:08:16 · 16578 阅读 · 4 评论 -
spark整合Phoenix相关案例
spark 读取Phoenix hbase table表到 DataFrame的方式Demo1:方式一:spark read读取各数据库的通用方式方式二:spark.load方式三:phoenixTableAsDataFrame(需要指定列名,留空就可以不指定列名)方式四:phoenixTableAsRDD (需要指定列名,留空就可以不指定列名)Demo2:方式一:方式二:Demo3:Maven...原创 2019-09-20 18:58:32 · 869 阅读 · 0 评论 -
Spark DataSource Option 参数
Spark DataSource Option 参数1.parquet2.orc3.csv4.text5.jdbc6.libsvm7.image8.json9.xml9.1读选项9.2写选项10.excel1.parquethttps://spark.apache.org/docs/latest/sql-data-sources-parquet.html2.orchttps://spark...转载 2019-09-26 19:49:08 · 1113 阅读 · 0 评论 -
spark-submit提交spark任务的具体参数配置说明
spark-submit提交spark任务的具体参数配置说明1.spark提交任务常见的两种模式2.提交任务时的几个重要参数3.参数说明3.1 executor_cores*num_executors3.2 executor_cores3.3 executor_memory3.4 driver-memory1.spark提交任务常见的两种模式local[k]:本地使用k个worker线程运行...转载 2019-09-07 15:38:09 · 961 阅读 · 0 评论 -
客户端,Scala:Spark查询Phoenix
客户端,Scala:Spark查询Phoenix1.pom.xml2.配置文件2.1config.properties2.2MyConfig3.entity实体(与phoenix中的table互相对应)4.Util5.scala,客户端查询Phoenix中的数据5.1 method15.2 method2IDEA中,使用spark操作Phoenix中的数据,scala语言编写。首先附上pom....原创 2019-09-05 18:36:12 · 938 阅读 · 0 评论 -
Spark踩坑填坑-聚合函数-序列化异常
Spark聚合函数一、Spark聚合函数特殊场景二、spark sql group by一、Spark聚合函数特殊场景在对数据进行统计分析时,如果对指标进行聚合运算,而待查询的字段中还包含了维度,则原则上我们还需要按照维度字段进行分组。倘若这个聚合运算为sum函数,分组之后就相当于分类汇总了。有一种特殊场景是我们对指标执行了sum聚合,查询字段也包含了维度,但我们不希望对维度分组。例如:se...原创 2019-08-22 16:25:13 · 4041 阅读 · 1 评论 -
Spark剖析-宽依赖与窄依赖、基于yarn的两种提交模式、sparkcontext原理剖析
Spark剖析-宽依赖与窄依赖一、宽依赖与窄依赖一、宽依赖与窄依赖原创 2019-06-26 10:15:39 · 513 阅读 · 0 评论 -
Spark练习之wordcount,基于排序机制的wordcount
Spark练习之wordcount一、原理及其剖析二、pom.xml三、使用Java进行spark的wordcount练习四、使用scala进行spark的wordcount练习一、原理及其剖析二、pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/PO...原创 2019-06-18 15:28:43 · 480 阅读 · 0 评论 -
输入DStream之基础数据源以及基于HDFS的实时wordcount程序
输入DStream之基础数据源以及基于HDFS的实时wordcount程序基于HDFS文件的实时计算原创 2019-06-20 17:23:54 · 505 阅读 · 0 评论 -
StreamingContext详解,输入DStream和Reveiver详解
StreamingContext详解,输入DStream和Reveiver详解一、StreamingContext详解1.1两种创建StreamingContext的方式1.2SteamingContext定义之后,必须做的事情1.3注意要点二、DStream和Receiver详解2.1 Spark Streaming提供了两种内置的数据源支持一、StreamingContext详解1.1两种...原创 2019-06-20 14:40:04 · 1444 阅读 · 0 评论 -
Spark练习之通过Spark Streaming实时计算wordcount程序
Spark练习之通过Spark Streaming实时计算wordcount程序Java版本Scala版本pom.xmlJava版本import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.funct...原创 2019-06-20 11:03:23 · 596 阅读 · 0 评论 -
Spark练习之action操作开发
Spark练习之action操作开发一、reduce1.1 Java1.2 Scala二、collect2.1 Java2.2 Scala三、count3.1 Java3.2 Scala四、take4.1 Java4.2 Scala五、saveAsTextFile5.1 Java六、countByKey6.1 Java6.2 Scala七、foreach八、main函数8.1 Java8.2 Sc...原创 2019-06-19 15:16:02 · 491 阅读 · 0 评论 -
Spark:常用transformation及action,spark算子详解
常用transformation及action介绍一、常用transformation介绍1.1 transformation操作实例二、常用action介绍一、常用transformation介绍操作介绍map将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDDfilter对RDD中每个元素进行判断,如果返回true则保留,返回fa...原创 2019-06-19 14:26:22 · 1526 阅读 · 0 评论 -
Spark练习之Transformation操作开发
Spark练习之Transformation操作开发一、map:将集合中的每个元素乘以21.1 Java1.2 Scala二、filter:过滤出集合中的偶数2.1 Java2.2 Scala三、flatMap:将行拆分为单词3.1 Java3.2 Scala四、groupByKey:将每个班级的成绩进行分组4.1 Java2.2 Scala五、reduceByKey:统计每个班级的总分5.1 J...原创 2019-06-19 14:17:17 · 481 阅读 · 0 评论 -
大数据体系概览Spark、Spark核心原理、架构原理、Spark特点
文章目录大数据体系概览(Spark的地位)什么是Spark?Spark的介绍Spark整体架构Spark的特点Spark SQL VS HiveSpark Streaming VS Storm大数据体系概览(Spark的地位)什么是Spark?Spark的介绍Spark整体架构Spark的特点Spark SQL VS HiveSpark Streaming VS St...原创 2019-06-09 16:40:34 · 727 阅读 · 0 评论 -
Centos搭建spark
Centos搭建spark一、spark介绍二、spark安装前提三、集群规划四、spark安装五、修改spark环境变量六、修改spark-env.sh七、修改slaves八、将安装包分发给其他节点九、启动spark集群一、spark介绍Spark初识二、spark安装前提搭建spark环境前,需要搭建的环境有:JDK8zookeeperhadoop Centos 搭建Hadoo...原创 2019-06-13 14:46:33 · 1452 阅读 · 0 评论 -
Spark练习之创建RDD(集合、本地文件),RDD持久化及RDD持久化策略
Spark练习之创建RDD(集合、本地文件)一、创建RDD二、并行化集合创建RDD2.1 Java并行创建RDD——计算1-10的累加和2.2 Scala并行创建RDD——计算1-10的累加和三、使用本地文件和HDFS创建RDD3.1 Java---使用本地文件创建RDD3.2 Scala---使用本地文件创建RDD一、创建RDD二、并行化集合创建RDD2.1 Java并行创建RDD——...原创 2019-06-18 17:02:17 · 1417 阅读 · 0 评论 -
Spark SQL
Spark SQL一、Spark SQL的特点:二、Spark SQL数据抽象:三、Spark SQL客户端查询:四、Spark SQL查询方式DataFrame查询方式(1)、DSL风格:(2)、SQL风格:DataSet查询方式五、DataFrame、Dataset和RDD互操作1、RDD->DataFrame:2、DataFrame->RDD:3、RDD->DataSet:...原创 2019-07-07 18:53:40 · 506 阅读 · 0 评论