![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
Han_Lin_
这个作者很懒,什么都没留下…
展开
-
pySpark ModuleNotFoundError: No module named ‘XXX‘
pySpark ModuleNotFoundError: No module named 'XXX'原创 2022-12-20 10:11:17 · 1246 阅读 · 1 评论 -
The root scratch dir: /tmp/hive on HDFS should be writable.(已解决)
The root scratch dir: /tmp/hive on HDFS should be writable.原创 2022-12-15 08:48:56 · 454 阅读 · 0 评论 -
pyspark 报错 - No port number in pyspark.daemon‘s stdout
No port number in pyspark.daemon's stdout - 已解决原创 2022-09-08 16:03:12 · 1307 阅读 · 2 评论 -
pom.xml - 打包能够添加外部依赖
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0..原创 2021-06-01 22:50:45 · 312 阅读 · 0 评论 -
Spark2.3.2 SparkSession 将 String 类型的 Json 转换为 DataFrame
import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{SQLContext, SparkSession}object DataFrameCreate { def main(args: Array[String]) { val jsonString = "{\"id\":1,...原创 2019-04-06 10:05:07 · 1045 阅读 · 0 评论 -
{"error":{"root_cause":[{"type":"strict_dynamic_mapping_exception","reason":"mapping set to strict,
报错信息:{"error":{"root_cause":[{"type":"strict_dynamic_mapping_exception","reason":"mapping set to strict, dynamic introduction of [created_by] within [layout_workorder] is not allowed"}],"type":"str...原创 2019-03-26 21:39:25 · 4490 阅读 · 0 评论 -
SparkStreaming 根据指定字段进行去重,并保留时间为最新的那条记录(消费Kafka版本为 0.10)
// 对数据进行过滤,取时间为最新的那条记录 val inputFilterIterable: RDD[(String, String)] = inputFeedRDD.map(inputRDD => { val a: ConsumerRecord[String, String] = inputRDD val in...原创 2019-03-20 23:15:55 · 2094 阅读 · 0 评论 -
Scala Java 混合开发的项目如何通过 Maven 进行打包(配置文件也都添加进去)
项目目录结构:pom.xml 中的打包代码:原创 2019-03-16 10:15:53 · 771 阅读 · 1 评论 -
DataFrame转自定义JavaBean
本人在项目开发的阶段遇到了一个业务场景:需要将 DataFrame 的数据转成一个自定义的 JavaBean 对象,然后传给 Java 应用层。执行的主函数代码:package com.hanlian.spark.sqlimport org.apache.spark.sql.SparkSessionobject DataFrameToJavaBean { def main(...原创 2019-03-15 22:00:32 · 673 阅读 · 0 评论 -
Streaming 消费 Kafka 中的 Json 数据并对单个 Batch 进行数据指定字段去重
inputKafkaDStream .foreachRDD(input => { if (!input.isEmpty()) { input.map(a => { a.split("\n") }) val pairRDDDate = input ....原创 2019-02-23 21:57:18 · 558 阅读 · 0 评论 -
SparkStreaming写Hive一个小Demo案例(数据源为 Socket)
import org.apache.spark.SparkContextimport org.apache.spark.sql.{SaveMode, SparkSession}import org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingConte...原创 2019-02-18 18:05:45 · 923 阅读 · 0 评论 -
Spark无法使用反射的方式创建DataSet的解决方式
无法使用反射的方式创建 DataSet 主要是 Spark 中的 implicits 隐式转换包没有导入。当你创建的是 HiveContext 的时候就需要导入 HiveContext 的比如:val sc = new SparkContext(conf)val hiveContext = new HiveContext(sc)那么你就需要导入:import hiveCo...原创 2019-02-17 10:01:10 · 301 阅读 · 0 评论 -
简述Spark Core SQL Streaming 的区别(个人理解只为小白解惑,大神勿喷!)
Spark Core : Spark的基础,底层的最小数据单位是:RDD ; 主要是处理一些离线(可以通过结合Spark Streaming来处理实时的数据流)、非格式化数据。Spark SQL: Spark SQL 底层的数据处理单位是:DataFrame(新版本为DataSet<Row>) ; 主要是通过执行标准 SQL 来处理一些离线(可以通过结合Spar...原创 2019-01-27 21:09:07 · 1002 阅读 · 0 评论 -
Spark 中容错( checkpoint )和持久化( cache )的异同:
checkpornt 是一个job来完成的,是执行完一个job之后,新建一个新的 job 来完成的,并不像 cache ,是 job 执行过程中进行。 checkpornt 是将数据的血统(DAG)截断,只保存了想要保存的 RDD 在HDFS 中,而 cache 的是计算血统的数据在内存中。 缓存的清除方式也不一样,checkpornt 到HDFS中的RDD需要手动清除,如果不手动清除,会...原创 2019-02-17 11:49:03 · 416 阅读 · 0 评论 -
Spark SQL 和 传统 SQL 的区别
Spark SQL 在 Spark1.x 中和传统 SQL 不完全一致。 但是在 Spark2.x 版本中遵循的美国的ANSI的SQL2003完全标准sql 。 oracle和mysql都有自己的语法规则,平时所使用的 SQL 语句都不是标准 SQL 。 平时用的 mysql 和 oracle 以及 hive,都是部分遵...转载 2019-01-18 15:56:04 · 7380 阅读 · 0 评论 -
Spark内核架构分析图解 - 整体内核架构简析图解
原创 2018-06-07 10:35:15 · 462 阅读 · 0 评论 -
failed to send message after 3 tries_非主流问题出现方式_topic未创建
failed to send message after 3 tries这个问题我遇到的原因是在Kafka发送数据的时候没有创建Topic,这样它的数据就不知道发送给谁了,这样就会出现这个问题。解决方案: 将发送的数据对应的Topic使用Kafka的命令行模式创建出来就可以解决这个问题了!...原创 2018-05-04 14:31:07 · 570 阅读 · 0 评论 -
spark程序中关闭mysql自动提交的算子
Connection.setAutoCommit(false)这个是用于关闭mysql的自动提交设置的,一般会应用于大数据量的向MySQL中插入数据,这样先关闭自动提交然后将数据全部写入数据库后再统一提交全部数据。这样能够提高执行的效率。Connection.commit() 这个算子就是用来提交你写入数据库中的数据的算子。...原创 2018-04-26 16:44:46 · 256 阅读 · 1 评论 -
如何将 DataFrame 中查询出来的对应字段的值获取出来并转换成 String
/* 需求: 在MySQL中有一张表:id,sqltext,state 主要是本表中存在一个sql语句,现在需要SparkSQL去执行本SQL*/// 构建 SparkConfval conf = new SparkConf.setAppName("XXX")// 构建 SparkContextval sc = new SparkContext(conf)// 构建 H...原创 2018-04-18 16:54:22 · 8156 阅读 · 0 评论