![](https://img-blog.csdnimg.cn/20200102000214436.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark基础知识
文章平均质量分 58
spark 基础知识
苍老流年
对未来的不确定与焦虑保持独立的判断与认知
展开
-
Spark HistoryServer 搭建教程
Spark HistoryServer原创 2022-08-30 14:56:37 · 1149 阅读 · 0 评论 -
Spark Streaming整合kafka实现ExactlyOnce语义
整合kafka原创 2020-08-02 22:54:47 · 390 阅读 · 3 评论 -
Spark Streaming应用程序调优
调优原创 2020-07-29 00:22:49 · 172 阅读 · 0 评论 -
Spark Streaming高可用HA
Spark Streaming任务在运行过程中无论是Driver还是Executor异常被中断,都有可能导致计算任务失败,进而导致数据丢失等一系列问题,为此Spark Streaming提供了高可用解决方案。Driver高可用Driver是Spark Streaming程序的"大脑",一旦Driver挂掉,那么整个任务都会失败。Spark Streaming HA将Driver元数据写到checkpoint目录下,如果后面因为某些原因导致Driver节点挂掉,那么可以通过读取checkpoint目录下的原创 2020-07-27 00:08:58 · 262 阅读 · 0 评论 -
spark streaming系列--流输出
简介与spark SQL类似,spark streaming同样可以将数据流输出到外部系统,比如文件系统或者数据库,以下是spark streaming支持的输出操作。foreachRDD可以自定义数据输出方式,所以在日常的使用中最广泛。案例本例从socket端口读取数据并将数据输出到Mysql数据库中。spark streaming读到的数据格式为:姓名,年龄例: zhangsa...原创 2020-01-15 23:25:49 · 354 阅读 · 0 评论 -
spark streaming 写入hive表中文乱码
问题今天,我在测试spark streaming将kafka数据写入hive中时,结果发现有部分字段的值出现了乱码。解决办法提交spark任务时加上如下参数--conf spark.driver.extraJavaOptions=" -Dfile.encoding=utf-8 " \--conf spark.executor.extraJavaOptions=" -Dfile.encod...原创 2020-03-05 17:43:07 · 1245 阅读 · 0 评论 -
spark sql系列--基本操作
spark sql产生DataFrame,DataSet案例原创 2020-01-23 22:23:05 · 168 阅读 · 0 评论 -
spark sql原理---上篇
spark sql架构Spark SQL 的整体架构如下图所示上图可见,无论是直接使用 SQL 语句还是使用 DataFrame,都会经过如下步骤转换成 DAG 对 RDD 的操作。Parser 解析 SQL,生成 Unresolved Logical Plan由 Analyzer 结合 Catalog 信息生成 Resolved Logical PlanOptimizer根据预先定...转载 2020-04-04 19:39:22 · 223 阅读 · 0 评论 -
spark sql系列--RDD,DataSet,DataFrame之间的转换
RDD DataSet DataFrame三者的关系共性RDD、DataFrame、Dataset 全都是 spark 平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如 map 方法时,不会立即执行,只有在遇到 Action如 foreach 时,三者才会开始遍历运算。 3、三者都会根据 spark 的内存情况自动缓存运算,这样即使数据量很大,...原创 2020-01-23 22:22:39 · 439 阅读 · 0 评论 -
spark 独立模式部署
部署环境# 操作系统:ubuntu-16.04-x64# jdk版本:1.8# scala版本:2.11.6# spark版本:spark-2.0.1-bin-hadoop2.6# 主机ip:192.168.103.12独立模式除了在mesos或yarn集群管理器运行,spark还提供了一个简单的独立部署模式(standalone)。它除了可以部署到单机,也可以部署到集群中,不依赖...原创 2018-05-08 17:46:35 · 2650 阅读 · 0 评论 -
spark sql 访问Hive数据表
https://blog.csdn.net/worldchinalee/article/details/80182226https://blog.csdn.net/agent_x/article/details/79952229原创 2018-12-04 14:11:14 · 5575 阅读 · 0 评论 -
spark从postgresql导入数据至mongodb报错: Decimal precision 39 exceeds max precision 38
今天使用spak从postgresql 往mongodb 导入数据时出现以下错误:9/02/25 16:47:21 INFO DAGScheduler: Job 0 failed: foreachPartition at MongoSpark.scala:117, took 16.897605 sorg.apache.spark.SparkException: Job aborted due ...原创 2019-02-25 16:55:55 · 3831 阅读 · 0 评论 -
spark yarn错误java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig
错误spark 提交任务到yarn上时报如下错误:2020-02-17 09:53:01 INFO SparkUI:54 - Bound SparkUI to 0.0.0.0, and started at http://master:40402020-02-17 09:53:01 INFO SparkContext:54 - Added JAR file:/root/software/...原创 2020-02-19 23:23:19 · 3560 阅读 · 0 评论