Spark(大数据分析引擎)
文章平均质量分 95
Spark(大数据分析引擎)
涂作权的博客
To do what I want to do!
展开
-
13.108.Spark 优化、Spark优化与hive的区别、SparkSQL启动参数调优、四川任务优化实践:执行效率提升50%以上
13.108.Spark 优化1.1.25.Spark优化与hive的区别1.1.26.SparkSQL启动参数调优1.1.27.四川任务优化实践:执行效率提升50%以上。原创 2023-08-31 15:45:13 · 1491 阅读 · 0 评论 -
手工计算YARN和MapReduce、tez内存配置设置
1.1.HDP YARN MapReduce参数调优建议转自:https://blog.csdn.net/mnasd/article/details/812029081.1.1.RM的内存资源配置,配置的是资源调度相关RM1:yarn.scheduler.minimum-allocation-mb 分配给AM单个容器可申请的最小内存(默认是1G)RM2:yarn.scheduler.maximum-allocation-mb 分配给AM单个容器可申请的最大内存(默认是yarn.nodemanager原创 2020-10-02 01:47:52 · 1222 阅读 · 0 评论 -
获取系统URL访问的前三名(通过Scala方式实现/通过Spark方式实现),Spark将URL访问日志进行分类并通过自定义Partitioner的方式将文件写入到不同分区上
1、创建Maven项目创建的过程参考:http://blog.csdn.net/tototuzuoquan/article/details/745713742、准备日志文件url.log的内容类似: 20160321101954 http://java.toto.cn/java/course/javaeeadvanced.shtml20160321101954 http://java.tot原创 2017-07-08 17:42:15 · 2178 阅读 · 7 评论 -
java编写WordCound的Spark程序,Scala编写wordCound程序
1、创建一个maven项目,项目的相关信息如下:<groupId>cn.toto.spark</groupId><artifactId>bigdata</artifactId><version>1.0-SNAPSHOT</version>2、修改Maven仓库的位置配置:3、首先要编写Maven的Pom文件<?xml version="1.0" encoding="UTF-8"?><proje原创 2017-07-06 17:05:09 · 1755 阅读 · 1 评论 -
Spark中自定义排序
项目创建参考:http://blog.csdn.net/tototuzuoquan/article/details/74571374package cn.toto.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Created by toto on 2017/7原创 2017-07-08 18:09:53 · 1022 阅读 · 0 评论 -
Spark查找某个IP的归属地,二分算法,try{}catch{}的使用,将结果存MySQL数据库
1、创建Maven工程调整Maven仓库所在的位置,具体参考:http://blog.csdn.net/tototuzuoquan/article/details/745713742、编写Pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xml原创 2017-07-09 12:39:29 · 3145 阅读 · 3 评论 -
Spark编程指引(四)----共享变量(广播变量和累加器)
转自:http://blog.csdn.net/happyanger6/article/details/46576831共享变量 通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。尽管如此,S转载 2017-07-09 13:59:23 · 589 阅读 · 1 评论 -
Spark远程调试配置,在IDEA中的配置
关于Spark集群部署参考:http://blog.csdn.net/tototuzuoquan/article/details/74481570一、Spark远程调试配置:#调试Master,在master节点的spark-env.sh中添加SPARK_MASTER_OPTS变量export SPARK_MASTER_OPTS="-Xdebug -Xrunjdwp:transport=dt_so原创 2017-07-09 14:36:47 · 2055 阅读 · 1 评论 -
spark的源码编译
编译spark源码并导入到IDEA中一、 目的1. 根据需要自定义编译spark相应的模块 2. 修改spark源码并重新编译spark二、 环境需求1. 操作系统为CentOS6.x 64bit,安装了桌面 2. 内存4G以上最佳 3. 下载IDEA的Linux版本,用于修改Spark源码三、 步骤1. 安装JDK 2. 安装Maven 3. 下载spark源码 教学中会使用spark原创 2017-07-09 18:40:40 · 704 阅读 · 1 评论 -
SparkSQL发展历史,DataFrame,SparkSQL的数据源,运行框架,tree和rule,Rule,Context运行过程,hiveContext运行过程,SparkSQL CLI等
SparkSQL简介 https://blog.csdn.net/zx8167107/article/details/78788585转载 2018-07-28 18:02:00 · 427 阅读 · 0 评论 -
spark通过phoenix读写hbase(Java版)-转:https://blog.csdn.net/xiongbingcool/article/details/81458602
pom.xml <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-...转载 2018-09-16 12:18:34 · 5163 阅读 · 0 评论 -
spark源码阅读笔记Dataset(二)Dataset中Actions、function、transformations
package Datasetimport org.apache.spark.sql.functions._import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/** * Created by legotime */object dataSetOperation { case class Person(...转载 2018-10-12 18:05:10 · 4322 阅读 · 0 评论 -
解决spark中遇到的数据倾斜问题
https://blog.csdn.net/lsshlsw/article/details/52025949转载 2018-10-30 14:45:34 · 4477 阅读 · 0 评论 -
hive表,hive视图,spark处理数据入mysql,shell获取url数据下载json,Spark sql处理json,shell脚本执行kylin,azkaban任务调度
1 Spark获取json数据,并将json数据存hive库hive表建立Demo--如果存在hive表,直接删除这个hive表。drop table if EXISTS tb_trade_info;--创建hive表(第一次全量,后续增量)CREATE TABLE IF NOT EXISTS tb_trade_info (salesmanId VARCHAR(40) comment ...原创 2019-03-19 09:32:29 · 4127 阅读 · 6 评论 -
phoenix+hbase+Spark整合,Spark处理数据操作phoenix入hbase,Spring Cloud整合phoenix
1 版本要求Spark版本:spark-2.3.0-bin-hadoop2.7Phoenix版本:apache-phoenix-4.14.1-HBase-1.4-binHBASE版本:hbase-1.4.2上面的版本必须是对应的,否则会报错2 Phoenix + HBase + Spark整合A:安装HBASE,这里略,默认都会B:Phoenix + HBASE整合,参考:ht...原创 2019-03-19 09:53:31 · 7828 阅读 · 3 评论 -
Spark rdd 介绍,和案例介绍
1.2、创建RDD1)由一个已经存在的Scala集合创建。 val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))2)由外部存储系统的数据集创建,包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等 val rdd2 = sc.textFile(“hdfs://mycluster/wordcount/in原创 2017-07-07 18:37:11 · 1709 阅读 · 0 评论 -
RDD的依赖关系、窄依赖、宽依赖、RDD的缓存、RDD缓存方式、DAG的生成、RDD容错机制之Checkpoint
1、RDD的依赖关系RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。 1.1、窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用 总结:窄依赖我们形象的比喻为独生子女1.2、宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Parti原创 2017-07-08 16:56:03 · 3261 阅读 · 1 评论 -
Spark-sql:以编程方式执行Spark SQL查询(通过反射的方式推断出Schema,通过StrutType直接指定Schema)
1、编写Spark SQL查询语句在这之前创建Maven项目。创建的过程如:http://blog.csdn.net/tototuzuoquan/article/details/74571374在这里:http://blog.csdn.net/tototuzuoquan/article/details/74907124,可以知道Spark Shell中使用SQL完成查询,下面通过在自定义程序中编写S原创 2017-07-10 21:11:22 · 1805 阅读 · 1 评论 -
Spark SQL概述,DataFrames,创建DataFrames的案例,DataFrame常用操作(DSL风格语法),sql风格语法
一、 Spark SQL1. Spark SQL概述1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.2. 为什么要学习Spark SQL 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce原创 2017-07-09 23:34:33 · 3327 阅读 · 2 评论 -
Spark-SQL从MySQL中加载数据以及将数据写入到mysql中(Spark Shell方式,Spark SQL程序)
1. JDBCSpark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。1.1. 从MySQL中加载数据(Spark Shell方式)1.启动Spark Shell,必须指定mysql连接驱动jar包[root@hadoop1 spark-2.1.1-bin-hadoop2.7]# bin/spa原创 2017-07-11 18:50:32 · 18972 阅读 · 4 评论 -
Spark-Sql整合hive,在spark-sql命令和spark-shell命令下执行sql命令和整合调用hive
1.安装hive 如果想创建一个数据库用户,并且为数据库赋值权限,可以参考:http://blog.csdn.net/tototuzuoquan/article/details/527855042.将配置好的hive-site.xml、core-site.xml、hdfs-site.xml放入$SPARK_HOME/conf目录下[root@hadoop1 conf]# cd /home/tuzq原创 2017-07-12 11:21:43 · 13554 阅读 · 2 评论 -
Spark Streaming介绍,DStream,DStream相关操作(来自学习资料)
一、 Spark Streaming介绍1. SparkStreaming概述1.1. 什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。SparkStreaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单原创 2017-07-12 20:28:50 · 2683 阅读 · 1 评论 -
Spark Streaming之:Flume监控目录下文件内容变化,然后Spark Streaming实时监听Flume,然后从其上拉取数据,并计算出结果
1、安装flume 2、到Spark-Streaming官网下载poll方式的Sink 3、将sink放入到flume的lib包里面 4、先启动flume(多个),然后在启动Streaming程序下载spark-flume http://spark.apache.org/documentation.html 到Spark-1.6.2中 http://spark.apache.org/do原创 2017-07-13 17:00:26 · 2507 阅读 · 1 评论 -
Spark Streaming实现实时WordCount,DStream的使用,updateStateByKey(func)实现累计计算单词出现频率
一、 实战1.用Spark Streaming实现实时WordCount 架构图: 说明:在hadoop1:9999下的nc上发送消息,消费端接收消息,然后并进行单词统计计算。* 2.安装并启动生成者 * 首先在一台Linux(ip:192.168.10.101)上用YUM安装nc工具 yum install -y nc启动一个服务端并监听9999端口 nc -lk 99992.编原创 2017-07-13 12:00:46 · 2330 阅读 · 1 评论 -
Spark Streaming从Kafka中获取数据,并进行实时单词统计,统计URL出现的次数
1、创建Maven项目创建的过程参考:http://blog.csdn.net/tototuzuoquan/article/details/745713742、启动KafkaA:安装kafka集群:http://blog.csdn.net/tototuzuoquan/article/details/73430874 B:创建topic等:http://blog.csdn.net/tototuzuo原创 2017-07-13 23:57:23 · 6975 阅读 · 1 评论 -
Spark Streaming从Kafka中拉取数据,并且使用过“窗口函数”统计一些流量信息
一、应用案例场景: 在Spark Streaming中,我们通常计算的是一段时间间隔内的数据。比如http://blog.csdn.net/tototuzuoquan/article/details/75094540这个案例中,统计单词出现次数时,每间隔5秒钟进行实时从Kafka中读取数据。但是当遇到一些其它的场景,比如一些流量计算类的,可能日志信息是30秒收集并被生成一次。但是我们原创 2017-07-14 11:03:49 · 8995 阅读 · 1 评论 -
Spark-on-YARN (来自学习笔记)
Spark-on-YARN1. 官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2. 配置安装1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。2.安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,sp转载 2017-07-14 11:13:12 · 682 阅读 · 0 评论 -
Spark概述、Spark特点
一、 Spark概述1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark St原创 2017-07-05 16:38:41 · 7451 阅读 · 0 评论 -
启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计
1.启动Spark Shellspark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。要注意的是要启动Spark-Shell需要先启动Spark-ha集群,Spark集群安装和部署参考:http://blog.csdn.net/tototuzuoquan/article/details/744815701.2.1、启动原创 2017-07-06 00:18:10 · 3825 阅读 · 1 评论 -
Spark自带的集群模式(Standalone),Spark/Spark-ha集群搭建
1、Spark自带的集群模式对于Spark自带的集群模式,Spark要先启动一个老大(Master),然后老大Master和各个小弟(Worker)进行通信,其中真正干活的是Worker下的Executor。关于提交任务的,需要有一个客户端,这个客户端叫做Driver.这个Driver首先和Master建立通信,然后Master负责资源分配,然后让Worker启动Executor,然后Executo原创 2017-07-05 19:01:53 · 4196 阅读 · 0 评论 -
Spark获取某个手机号在某个基站下停留的时间和当前手机所在的位置的案例
1、业务需求 在拥有手机号在每个基站处停留时间日志 和 基站信息的 算出某个手机号的(所在基站,停留时间),(当前所在经度,当前所在纬度)其中手机连接基站产生的日志信息类似如下:18688888888,20160327082400,16030401EAFB68F1E3CDF819735E1C66,118611132889,20160327082500,16030401EAFB68F原创 2017-07-08 12:07:48 · 5617 阅读 · 5 评论 -
spark sql基本使用方法介绍(转载)
spark sql基本使用方法介绍 Spark中可以通过spark sql 直接查询Hive或impala中的数据,一、启动方法 /data/spark-1.4.0-bin-cdh4/bin/spark-sql –master spark://master:7077 –total-executor-cores 10 –executor-memory 1g –executor-cores 2注转载 2017-07-10 18:30:20 · 1406 阅读 · 0 评论