涂作权的博客

成功就是将个人潜能发挥到极限!&&以大多数人的努力程度之低,根本还轮不到拼天赋!...

排序:
默认
按更新时间
按访问量
RSS订阅

phoenix+hbase+Spark整合,Spark处理数据操作phoenix入hbase,Spring Cloud整合phoenix

1 版本要求 Spark版本:spark-2.3.0-bin-hadoop2.7 Phoenix版本:apache-phoenix-4.14.1-HBase-1.4-bin HBASE版本:hbase-1.4.2 上面的版本必须是对应的,否则会报错 2 Phoenix + HBase + S...

2019-03-19 09:53:31

阅读数 709

评论数 1

hive表,hive视图,spark处理数据入mysql,shell获取url数据下载json,Spark sql处理json,shell脚本执行kylin,azkaban任务调度

1 Spark获取json数据,并将json数据存hive库 hive表建立Demo --如果存在hive表,直接删除这个hive表。 drop table if EXISTS tb_trade_info; --创建hive表(第一次全量,后续增量) CREATE TABLE IF NO...

2019-03-19 09:32:29

阅读数 3195

评论数 5

解决spark中遇到的数据倾斜问题

https://blog.csdn.net/lsshlsw/article/details/52025949

2018-10-30 14:45:34

阅读数 4264

评论数 0

spark源码阅读笔记Dataset(二)Dataset中Actions、function、transformations

package Dataset import org.apache.spark.sql.functions._ import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} /** * Created by legotime ...

2018-10-12 18:05:10

阅读数 3846

评论数 0

spark通过phoenix读写hbase(Java版)-转:https://blog.csdn.net/xiongbingcool/article/details/81458602

pom.xml <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql --> <dependency> ...

2018-09-16 12:18:34

阅读数 4387

评论数 0

SparkSQL发展历史,DataFrame,SparkSQL的数据源,运行框架,tree和rule,Rule,Context运行过程,hiveContext运行过程,SparkSQL CLI等

SparkSQL简介 https://blog.csdn.net/zx8167107/article/details/78788585

2018-07-28 18:02:00

阅读数 180

评论数 0

Spark-on-YARN (来自学习笔记)

Spark-on-YARN1.    官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2.    配置安装1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上...

2017-07-14 11:13:12

阅读数 467

评论数 0

Spark Streaming从Kafka中拉取数据,并且使用过“窗口函数”统计一些流量信息

一、应用案例场景: 在Spark Streaming中,我们通常计算的是一段时间间隔内的数据。比如http://blog.csdn.net/tototuzuoquan/article/details/75094540这个案例中,统计单词出现次数时,每间隔5秒钟进行实时从Kafka中读...

2017-07-14 11:03:49

阅读数 5041

评论数 1

Spark Streaming从Kafka中获取数据,并进行实时单词统计,统计URL出现的次数

1、创建Maven项目创建的过程参考:http://blog.csdn.net/tototuzuoquan/article/details/745713742、启动KafkaA:安装kafka集群:http://blog.csdn.net/tototuzuoquan/article/details...

2017-07-13 23:57:23

阅读数 4406

评论数 1

Spark Streaming之:Flume监控目录下文件内容变化,然后Spark Streaming实时监听Flume,然后从其上拉取数据,并计算出结果

1、安装flume 2、到Spark-Streaming官网下载poll方式的Sink 3、将sink放入到flume的lib包里面 4、先启动flume(多个),然后在启动Streaming程序下载spark-flume http://spark.apache.org/documenta...

2017-07-13 17:00:26

阅读数 1350

评论数 1

Spark Streaming实现实时WordCount,DStream的使用,updateStateByKey(func)实现累计计算单词出现频率

一、 实战1.用Spark Streaming实现实时WordCount 架构图: 说明:在hadoop1:9999下的nc上发送消息,消费端接收消息,然后并进行单词统计计算。* 2.安装并启动生成者 * 首先在一台Linux(ip:192.168.10.101)上用YUM安装nc工...

2017-07-13 12:00:46

阅读数 1294

评论数 1

Spark Streaming介绍,DStream,DStream相关操作(来自学习资料)

一、 Spark Streaming介绍1. SparkStreaming概述1.1. 什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。SparkS...

2017-07-12 20:28:50

阅读数 1369

评论数 1

Spark-Sql整合hive,在spark-sql命令和spark-shell命令下执行sql命令和整合调用hive

1.安装hive 如果想创建一个数据库用户,并且为数据库赋值权限,可以参考:http://blog.csdn.net/tototuzuoquan/article/details/527855042.将配置好的hive-site.xml、core-site.xml、hdfs-site.xml放入$...

2017-07-12 11:21:43

阅读数 8245

评论数 2

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中(Spark Shell方式,Spark SQL程序)

1. JDBCSpark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。1.1. 从MySQL中加载数据(Spark Shell方式)1.启动Spark Shell,必须指定mysql连接驱动j...

2017-07-11 18:50:32

阅读数 14177

评论数 3

Spark-sql:以编程方式执行Spark SQL查询(通过反射的方式推断出Schema,通过StrutType直接指定Schema)

1、编写Spark SQL查询语句在这之前创建Maven项目。创建的过程如:http://blog.csdn.net/tototuzuoquan/article/details/74571374在这里:http://blog.csdn.net/tototuzuoquan/article/detai...

2017-07-10 21:11:22

阅读数 843

评论数 1

spark sql基本使用方法介绍(转载)

spark sql基本使用方法介绍 Spark中可以通过spark sql 直接查询Hive或impala中的数据,一、启动方法 /data/spark-1.4.0-bin-cdh4/bin/spark-sql –master spark://master:7077 –total-execut...

2017-07-10 18:30:20

阅读数 731

评论数 0

Spark SQL概述,DataFrames,创建DataFrames的案例,DataFrame常用操作(DSL风格语法),sql风格语法

一、 Spark SQL1. Spark SQL概述1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.2. 为什么要学习Spark SQL 我们已经学习了Hiv...

2017-07-09 23:34:33

阅读数 2024

评论数 2

spark的源码编译

编译spark源码并导入到IDEA中一、 目的1. 根据需要自定义编译spark相应的模块 2. 修改spark源码并重新编译spark二、 环境需求1. 操作系统为CentOS6.x 64bit,安装了桌面 2. 内存4G以上最佳 3. 下载IDEA的Linux版本,用于修改Spark源码...

2017-07-09 18:40:40

阅读数 418

评论数 1

Spark远程调试配置,在IDEA中的配置

关于Spark集群部署参考:http://blog.csdn.net/tototuzuoquan/article/details/74481570一、Spark远程调试配置:#调试Master,在master节点的spark-env.sh中添加SPARK_MASTER_OPTS变量 export ...

2017-07-09 14:36:47

阅读数 1251

评论数 1

Spark编程指引(四)----共享变量(广播变量和累加器)

转自:http://blog.csdn.net/happyanger6/article/details/46576831共享变量 通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程...

2017-07-09 13:59:23

阅读数 353

评论数 1

提示
确定要删除当前文章?
取消 删除