spark
文章平均质量分 68
spark
Yaphets丶混世大魔王
这个作者很懒,什么都没留下…
展开
-
Spark运行架构
1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkCon...转载 2018-10-09 19:20:20 · 171 阅读 · 0 评论 -
Spark2.3.2 Configuration 参数配置
SPARKConfiguration 参数配置表,有能力的请直接看原文http://spark.apache.org/docs/2.3.2/configuration.htmlSpark Streaming名称 默认 含义 spark.streaming.backpressure.enabled false 启用或禁用Spark Streaming的内部背...原创 2019-09-04 16:24:59 · 813 阅读 · 0 评论 -
spark读取hive
spark读取hive是最简单的,构造一个sparksession对象,直接执行SQL就得读取,然后直接insert就能写入。因为spark客户端配置了你的hive数据库的信息,所以能够直接读取hive数据库。spark = SparkSession .builder() .appName("Java Spark SQL b...原创 2019-02-26 10:55:37 · 1990 阅读 · 0 评论 -
spark操作MySQL
spark读取MySQL就是通过最简单的jdbc实现读取和写入的,操作起来十分方便。但是在实际的项目当中,如果你有频繁的操作MySQL的话,建议最好加上连接池,不然速度会很慢。这里只是spark链接MySQL的入门,没有加上连接池的代码,后续会更新。MysqlAdapter类如下:package com.test.mysql;import org.apache.commons...原创 2019-02-26 10:33:59 · 917 阅读 · 0 评论 -
Spark中转换jsonString数据为Dataset
Spark中想把读取到的JsonString类型数据转化为DataSet只需要通过一步就行SparkSession spark = SparkSession.builder().getOrCreate();JavaRDD<String> stringJavaRDD = json类型的string;Dataset<Row> row = spark.sqlContext...原创 2019-02-18 20:41:30 · 2036 阅读 · 1 评论 -
Streaming 读取Kafka 保存OFFSET到kafka
Streaming 读取Kafka 实现断点续读功能老版本的kafka比较麻烦,streaming提供的只有checkpoint方法实现断点续读功能,但是当修改程序之后就没法平滑部署。因为checkpoint存储的是整个streaming启动类的序列化文件,当文件改动之后没法反序列化了。所以需要更好的方法来实现读取Kafka 实现断点续读功能。本文主要讲解的就是通过zookeeper保...原创 2019-02-18 18:27:31 · 622 阅读 · 0 评论 -
Hive字符串常用函数
Hive内部提供了很多操作字符串的相关函数,本文将对其中部分常用的函数进行介绍。下表为Hive内置的字符串函数,具体的用法可以参见本文的下半部分。返回类型 函数名 描述 int ascii(string str) 返回str第一个字符串的数值 string base64(binary bin) 将二进制参数转换为base64字符串 strin...转载 2019-01-12 14:39:03 · 510 阅读 · 0 评论 -
Spark读取HDFS或者AFS等文件系统文件
Spark读取HDFS或者AFS等文件系统文件Spark读取文件有很多方法,我这里主要介绍一下读取非结构化的文件的两种方式,针对多文件读取,单文件读取也是一样的。方案一:spark的textFile方法,也是最简单的方案,支持通配符,简单好用String afsFilePath="afs://afs.yun.com/app/file/*...原创 2018-12-30 23:49:21 · 2308 阅读 · 0 评论 -
Spark的Dataframe(Dataset)转Json
Spark的Dataframe(Dataset)转Json字符串 Spark的Dataframe(Dataset)转Json,网上很多都说的太麻烦了,让你先转换成collect,然后按照不同的filed字段去转义。完全不用那么麻烦原理就是先把Dataset<row>就是Dataframe对象(带schema的数据类型)转换成...原创 2018-12-29 20:35:46 · 6581 阅读 · 4 评论 -
spark程序依赖guava冲突报错
在练习 spark 读取本地文件的过程中,遇到了这样的问题:Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapred.Fil...原创 2018-12-17 20:07:45 · 2523 阅读 · 0 评论 -
Hive配置属性
Hive配置属性原文路径:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties#ConfigurationProperties-HiveConfigurationPropertiesHive配置属性 查询和DDL执行 SerDes和I / O. 串行解串器 I / O ...原创 2019-09-05 14:50:30 · 1096 阅读 · 0 评论