Spark
微批界的扛把子,当时火爆一时,各大厂商争相使用的流式处理框架之一,现在sparksql是数仓应用的最为多
80后大叔爱学习
2023年10月开始更新博客内容均为逆向相关的,其它内容暂时不会更新,没有太晚的开始,不如就从今天行动。
展开
-
CDH大数据平台 所有 HiveServer2 角色必须在相同的主机上有一个 Spark 角色(如 Gateway)以接收 Spark 配置。在角色正常运行前,您必须部署 Spark 客户端配置
hive on spark修改计算引擎报错解决方法原创 2022-10-15 10:59:19 · 646 阅读 · 11 评论 -
SPARK hive on spark(一) spark编译程序
spark编译方法原创 2022-07-14 22:37:25 · 218 阅读 · 0 评论 -
SPARK java.lang.ClassNotFoundException: org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver
解决:编译时候缺少了相关jar包,需要重新编译:添加内容-Phive-thriftserver./dev/make-distribution.sh \--name "hadoop3-without-hive" \--tgz "-Pyarn -Phive-thriftserver,hadoop-3.1,scala-2.11,parquet-provided,orc-provided" \-Dhadoop.version=3.1.3 \-Dscala.version=2.11.8 \-Dsca..原创 2021-03-15 16:49:56 · 1122 阅读 · 0 评论 -
SPARK 编译2.3.0 Cannot download zinc-0.3.15.tgz with cURL or wget; please install manually and try aga
yum -y install wget;解决原创 2021-03-07 14:33:17 · 491 阅读 · 0 评论 -
Scala 学习 进击大数据Spark生态圈----个人笔记
学习Scala 进击大数据Spark生态圈总结:第一章: 简单讲解了一下Scala的优劣势第二章: val:常量(值) 会自动生成get方法 var: 变量 自动生成get/set方法 lazy属性是遇到Action操作才会执行 优点:大数据需要提前加载的时候不会占用整个系统很多资源 缺点:不判断程序或加载数据的对错,只有......原创 2020-04-20 09:21:59 · 600 阅读 · 0 评论 -
KAFKA java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljav
在diea里面跑spark程序发生jar包冲突,kafka的LZ4版本屏蔽掉原创 2019-05-27 18:42:03 · 2250 阅读 · 0 评论 -
阿里云镜像地址,在maven的setting和pom.xml里添加方法
在maven里面添加<mirrors> <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/&...原创 2018-11-24 10:22:30 · 11305 阅读 · 2 评论 -
Spark Streaming实时流处理项目实战--个人学习笔记--未完待续
Spark Streaming实时流处理项目实战第一章:介绍课程前提第二章: 1、实时流处理的背景 1)实时性高 2)数据量大 2、离线和实时计算对比 1)数据来源 离线:HDFS 历史数据 数据量比较大 实时:消息队列(kafka) 实时新增/修改的某一笔数据 2)......原创 2018-10-24 23:15:10 · 642 阅读 · 0 评论 -
SPARK org.apache.hadoop.security.AccessControlException: Permission denied: user=TIAN, access=ALL
错误提示:org.apache.hadoop.security.AccessControlException: Permission denied: user=TIAN, access=ALL, inode="/data/output":grip:supergroup:drwxr-xr-x解决办法:hadoop fs -chmod -R 777 /data因为idea在windows下...原创 2018-10-20 10:06:35 · 1649 阅读 · 0 评论 -
SPARK JDBC链接其它数据库,错误:java.sql.SQLException: No suitable driver
添加:option("driver","com.mysql.jdbc.Driver")原创 2018-10-12 10:23:06 · 2798 阅读 · 2 评论 -
IDEA 导入import implicits._ 隐士转换后自动消失或导入其它包
隐士转换后自动消失或导入其它包原创 2018-08-24 16:45:09 · 2783 阅读 · 0 评论 -
IDEA SparkSession默认导入org.apache.hadoop.hive.ql.exec.spark.session.SparkSession包(我是默认导入这个包)或其它包
1、出现的错误问题,见图2、解决方法:原创 2018-08-24 16:43:10 · 4175 阅读 · 0 评论 -
SPARK idea自动生成serialVersionUID
Java的序列化的机制通过判断serialVersionUID来验证版本的一致性。在反序列化的时候与本地的类的serialVersionUID进行比较,一致则可以进行反序列化,不一致则会抛出异常InvalidCastException。如果使用idea开发工具,在类实现java.io.Serializable接口时,如何自动自动生成serialVersionUID......原创 2018-08-10 15:54:59 · 908 阅读 · 0 评论 -
SPARK spark-submit提交deploy-mode client改为cluster模式
报错内容:ERROR deploy.ClientEndpoint: Exception from cluster was: java.io.FileNotFoundException: /usr/log_data/java/spark-project-0.0.1-SNAPSHOT.jar (No such file or directory)查找原因是:spark-submit 提交任务时...原创 2018-08-04 22:35:54 · 11166 阅读 · 2 评论 -
SPARK Initial job has not accepted any resources; check your cluster UI to ensure that workers are
Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources1、查看spark-env.sh是否指定了SPARK_MASTER_IP =192.168.1.100(或主机名、local...原创 2018-08-04 21:31:48 · 1527 阅读 · 0 评论 -
SPARK 启动spark-shell报错The specified datastore driver (“com.mysql.jdbc.Driver“) was not found
错误提示:Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "DBCP" plugin to create a ConnectionPool gave an error : The specified datastore driver ("com.mysql.jdbc.Driver") was...原创 2018-07-25 23:13:27 · 1438 阅读 · 0 评论 -
SPARK The root scratch dir: /tmp/hive-grip on HDFS should be writable. Current permissions are: rwxr
错误提示:ERROR scheduler.JobScheduler: Error running job streaming job 1532317741000 ms.0java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive-grip on HDFS should be wri...原创 2018-07-25 11:45:55 · 1606 阅读 · 0 评论 -
SPARK Spark SQL读取hive数据时报找不到mysql驱动
错误提示:Attempt to invoke the "DBCP" plugin to create a ConnectionPool gave an error将$HIVE_HOME/conf/hive-site.xml拷贝至$SPARK_HOME/conf/目录下;原创 2018-07-25 11:44:25 · 646 阅读 · 0 评论 -
ERROR SparkContext: Error initializing SparkContext.
错误详情:egalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.在Run --> Edi...原创 2018-05-30 22:22:40 · 3151 阅读 · 0 评论