![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
秉寒-CHO
但行好事,莫问前程
展开
-
spark3.0 特性测试整理
目前的测试效果性能较2.4.6 提高有20%spark 3.0 性能改进项--简化内容可以参考 https://www.cnblogs.com/xing901022/p/13381167.html :spark3.0 的 发布时间 --2020年6月大版本的更新注定有许多性能优化方面的新特性,其中整个版本升级改进中spark sql占 46% ,spark core占 16% spark作为当前批量数据分析引擎,在SQL方面的优化主要四个方向7个方面:1.开发交互方向: 新的...原创 2021-03-01 18:28:04 · 320 阅读 · 0 评论 -
hive ,tez , spark sql 小文件合并
hdfs 下小文件是最致命的影响之一Hive 命令hive.merge.mapredfiles=true;hive.merge.mapfiles=truehive.merge.rcfile.block.level=truehive.merge.size.per.task=256000000hive.merge.smallfiles.avgsize=16000000tez 命令hive.merge.tezfiles=truespark 命令 :hive.merg...原创 2021-01-15 15:01:04 · 1094 阅读 · 0 评论 -
在执行Sparksql操作orc类型的表时抛出:java.lang.IndexOutOfBoundsException 或者 java.lang.NullPointerException
案例 (spark version 2.4.6):create tmp.table_Y_x_h partitioned by (key string) stored as orc ;insert overwrite table tmp.table partition(key='ur_my_love') select * from tablex where 1=2 ;会在hdfs key path 下生成一个000000_00 size 大小为 0 的空文件 ;在spark-s...原创 2021-01-12 14:21:46 · 679 阅读 · 0 评论 -
spark2.4.6 版本下创建orc临时表错误
create tmp.table stored as orc as select * from tmp.tablesx;insert into tmp.table select * from tmp.tablesy;会造成 hdfs 文件的后缀名称不一致 ,造成 spark 引擎下部分数据不能读取的错误 ;解决方法 :1. 上述的sql 通过 union all 进行合并2.增加参数强制统一hdfs文件格式 :spark.sql.hive.convertMetast...原创 2021-01-12 14:12:00 · 403 阅读 · 0 评论 -
spark error info
Unable to create executor due to uanble to register with external shuffle server due to timeout waiting for task原创 2020-12-08 14:20:07 · 229 阅读 · 0 评论 -
Spark 运行内存溢出:memoryOverhead
在做一个保密级别的项目中遇到的spark内存异常具体错误语句:Lost executor 10 on hadoop88:Container kill by yarn for exceeding memory limits.9 Gb of 9 Gb physical memory used .Consider boosting spark.yarn.executor.memoryOverhead or disabling yarn.nademanager.vmem-check-enabled be原创 2020-10-23 10:55:27 · 1618 阅读 · 0 评论 -
大数据基础、数据仓库以及数据中台和挖掘阶段性总结
【腾讯文档】大数据基础https://docs.qq.com/slide/DQXlvZHVUTGJQR3hE原创 2020-09-18 15:52:08 · 227 阅读 · 0 评论 -
IntelliJ IDEA 导入 spark 源码 步骤
1.下载源码2.导入3.导入设置4.结束原创 2017-03-09 21:12:58 · 8650 阅读 · 0 评论 -
RDD & java 类 (反射)构建 DataFrame ---java code
import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Functi原创 2017-01-17 23:34:52 · 620 阅读 · 1 评论 -
RDD & java 类 (反射)构建 DataFrame
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextobject RDD2DataFrameByReflectionScala { case class Person(name: String, age: Int) def原创 2017-01-17 23:13:12 · 277 阅读 · 0 评论 -
RDD & schema 创建dataFrame
import org.apache.spark.sql.SQLContextimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.types.StructFieldimport org.apache.spark.sql.types.StructType原创 2017-01-17 22:54:08 · 1707 阅读 · 0 评论 -
Spark SQL saveMode 方式
package com.bjsxt.java.spark.sql.loadsave;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQL原创 2017-01-17 22:36:46 · 8465 阅读 · 0 评论 -
Spark SQL 读取json 里面的数据 ,jason 是 结构的数据
import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.j原创 2017-01-17 22:16:19 · 1772 阅读 · 0 评论 -
SPark SQL 从 DB 读取数据方法和方式 scala
import org.apache.spark.sql.SQLContextimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport java.util.HashMapimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataF原创 2017-01-17 22:06:20 · 1147 阅读 · 0 评论 -
SPark SQL 从 DB 读取数据方法和方式
import java.sql.Connection;import java.sql.DriverManager;import java.sql.Statement;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import org.apa原创 2017-01-17 21:47:02 · 3249 阅读 · 0 评论 -
spark parquet 从hdfs 上读 和写 scala 版本
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.SaveModeobject Generi原创 2017-01-17 21:40:33 · 2902 阅读 · 0 评论 -
Spark RDD 的那些个事事
内容来自京东金融微信公众号整理和解读Google 发表三大论文 GFS MapReduce BigTable 衍生出很多开源框架 ,毫无疑问 Hadoop 在 大家心中的地位是不可估量的 。Hadoop 因为其高可用 高扩展 高容错 特性成为开源工业界的事实标准,作为一个可以搭建下廉价PC 机器上的分布式集群体系 ,Hadoop 用户可以不关心底层实现细节 ,利用Hadoop原创 2017-03-28 22:08:54 · 7115 阅读 · 0 评论 -
数据治理之yarn日志解析
package log;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import lombok.extern.slf4j.Slf4j;import org.apache.commons.lang.St...原创 2019-07-21 21:22:28 · 616 阅读 · 0 评论 -
The most important parameters of spark env when you using spark run data things
The most important parameters of spark env when you using spark run data thingsIn my memory I always confused by these parameters ,so it's a good time to understand them totally thanksThere ar...原创 2018-11-02 16:39:56 · 152 阅读 · 0 评论 -
当前京东数据平台用到spark 的五种方式
当前京东数据平台用到spark 的五种方式1.spark sql 数据从Hive 同步到ES 用python包装命令, 使用spark-submit 提交 ,run_shell_cmd(spark-submit) 具体案例可以参考另外的博文2.机器学习会用到pyspark 自带的类似kmeans 的方法做数据加载 ,用pypsark 写 应用程序,通过shell 调spark-su...原创 2018-08-09 09:15:54 · 706 阅读 · 0 评论 -
python scala kafka 集成一个流程项目 spark
想在windows 下 ,搭建一个spark kafka 的 最简单的实时流计算:python 随机生成0-100 的随机数据,发送给spark 进行统计scala 2.11python 3.5java 1.8kafka_2.11-0.11.0.0.tgzzookeeper-3.4.9.tar.gzspark 2.2step 1 zk 配置 ,启动zk原创 2017-08-19 13:54:05 · 539 阅读 · 0 评论 -
How to establish a big data platform ?
How to establish a big data platform ?http://xyz.insightdataengineering.com/blog/pipeline_map/https://blog.insightdatascience.com/the-data-engineering-ecosystem-in-2017-2c2a3429350e这张图很好的呈现了,每个框原创 2017-08-16 17:36:08 · 321 阅读 · 0 评论 -
Spark Scala DataFram join 操作
package com.xh.moviesimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{StringType,原创 2017-03-15 20:47:59 · 2340 阅读 · 0 评论 -
Spark Scala 二次排序
package com.second.sortbysparkimport org.apache.spark.{SparkConf, SparkContext}/** * Created by xxxxx on 3/14/2017. */object SecondarySort { def main(args: Array[String]): Unit = { va原创 2017-03-14 21:20:45 · 982 阅读 · 1 评论 -
Spark Streaming 读取本地文件压文件
package streamings.studysimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by yunxing原创 2017-03-23 21:38:59 · 5199 阅读 · 6 评论 -
Spark RDD 实现电影点评用户行为分析 (Scala)
package com.xh.moviesimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutableimport org.apache.log4j.{Level,Logger}/** * Created by sss原创 2017-03-12 23:48:48 · 1522 阅读 · 1 评论 -
spark parquet 从hdfs 上读 和写
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLContext;import org.apache.spark.sql.SaveMod原创 2017-01-17 21:37:20 · 6524 阅读 · 0 评论 -
Spark streaming 采用直接读kafka 方法获取数据
package com.xing.streamimport kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, Streamin原创 2016-12-16 21:58:43 · 4447 阅读 · 0 评论 -
Spark SQL 程序开发需要注意的要点
Spark SQL 程序开发过程中,我们有两种方式确定 schema,第一种是反射推断 schema,这种方式下,需要定义样本类 (case class) 来对应数据的列;第二种方式是通过编程方式来确定 schema,这种方式主要是通过 Spark SQL 提供的 StructType 和 StructField 等 API 来编程实现,这种方式下不需要定义样本类 在程序实现中,我们原创 2016-10-10 15:22:56 · 909 阅读 · 0 评论 -
Spark Streaming 应用实例
案例介绍与编程实现1. 案例介绍该案例中,我们假设某论坛需要根据用户对站内网页的点击量,停留时间,以及是否点赞,来近实时的计算网页热度,进而动态的更新网站的今日热点模块,把最热话题的链接显示其中。2. 案例分析对于某一个访问论坛的用户,我们需要对他的行为数据做一个抽象,以便于解释网页话题热度的计算过程。首先,我们通过一个向量来定义用户对于某个网页的行为即点击原创 2016-10-10 13:45:03 · 607 阅读 · 2 评论 -
利用 Spark Streaming 构建高效健壮的流数据计算系统注意事项
利用 Spark Streaming 构建高效健壮的流数据计算系统注意事项 需要合理的设置数据处理的间隔,即需要保证每一批数据的处理时间必须小于处理间隔,保证在处理下一批数据的时候,前一批已经处理完毕。显然这需要由您的 Spark 集群的计算能力还有 input 数据的量决定。 需要尽可能的提升读取 input 数据的能力。在 Spark Streaming 与外部系统如原创 2016-10-10 13:24:35 · 485 阅读 · 0 评论 -
Spark Steaming 点滴
Spark Streaming 模块是对于 Spark Core 的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket 等。Discretized Stream 也叫 DStream) 是 Spark Streaming 对于持续数据流的一种原创 2016-10-10 12:51:06 · 678 阅读 · 0 评论 -
Spark job 的执行流程简介
Spark 应用程序在提交执行后,控制台会打印很多日志信息,这些信息看起来是杂乱无章的,但是却在一定程度上体现了一个被提交的 Spark job 在集群中是如何被调度执行的,这里将会向大家介绍一个典型的 Spark job 是如何被调度执行的。我们先来了解以下几个概念:DAG: 即 Directed Acyclic Graph,有向无环图,这是一个图论中的概念。如果一个有向图无法从某个顶点原创 2016-10-10 12:39:15 · 744 阅读 · 0 评论 -
Spark Scalaa 几个常用的示例
SparkWordCount 类源码 standalong 模式import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._object SparkWordCount { def FILE_NAME:String = "word_c原创 2016-10-10 12:37:46 · 6431 阅读 · 1 评论 -
Spark sql 简单示例
都这个点了,很多同事还没有到公司,得那我就简单写个spark sql 的示例 回顾而知新,孔老子明智package com.ib.e3import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}/** * Created by xxxxoooo on原创 2016-09-02 09:54:58 · 1834 阅读 · 0 评论 -
spark-sql master on yarn 模式运行 select count(*) 报错日志
启动hive --service metastore启动 dfs yarn[root@bigdatastorm bin]# ./spark-sql --master yarn --deploy-mode client --driver-memory 512m --executor-memory 512m --total-executor-cores 1spark-sql原创 2016-09-05 22:30:19 · 4708 阅读 · 1 评论 -
逻辑回归(推荐系统)
import java.io.PrintWriterimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.linalg.SparseVectorimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.rdd.原创 2016-09-17 20:45:31 · 3363 阅读 · 1 评论 -
Spark streaming 应用简单示例
Spark streaming 应用简单示例原创 2016-09-02 22:10:06 · 489 阅读 · 0 评论 -
spark中的Broadcast variables和Accumulator (广播变量和累加器)
同事都被老板叫去开会了 ....... 已经开了两个小时了 GOD 广播变量 broadcast这个变量只能在drive 端修改,不能在executor 端修改不产生shuffle 的 优化,但是需要这个RDD 数据量较小累加器 accumulator在executor 端读,在driver 显示 (已经代码保存到有道ing)package原创 2016-09-01 16:37:15 · 658 阅读 · 0 评论 -
Spark word count 实例
利用中午休息时间配置了个环境,写个Word count 本地模式测试下 环境 , 环境OkayScala 2.10.4Java 1.7.08Spark 1.6.0package com.ib.e3import org.apache.spark.{SparkConf, SparkContext}/** * Created by xxxooo on 8/29/20原创 2016-08-29 13:02:24 · 1142 阅读 · 0 评论