BigData
文章平均质量分 56
大数据基础环境部署,日常开发总结笔记,问题记录
Zakza
编程是一门艺术~
展开
-
Window10 Kerberos客户端自动续期脚本
window中自动续期Kerberos脚本,可以不安装MIT客户端原创 2024-07-17 09:23:53 · 124 阅读 · 0 评论 -
superset支持Kylin4.0.0(兼容处理日期分组功能)
安装kylinpy。原创 2023-10-12 18:22:07 · 378 阅读 · 0 评论 -
DolphinScheduler配置Kerberos,过期重启解决问题(完结)
解决方法。原创 2023-08-15 15:01:51 · 816 阅读 · 4 评论 -
解决DolphinScheduler配置Kerberos过期问题(无效,请看完结版)
DolphinScheduler除了kerberos.expire.time注释掉,其他正常配置,定时更新ticket在20点,几乎没有任务运行,klist中renew until 2023-06-01T20:00:01,之前失效的都是整点无法自动续期时renew until时间固定不变,自动续期时renew until每天更新。原创 2023-05-26 16:59:57 · 1541 阅读 · 6 评论 -
CM6.3.2启用Kerberos(附问题解决)
记录CDH启用Kerberos遇到的相关问题及解决方法原创 2023-03-07 11:34:12 · 436 阅读 · 0 评论 -
DolphinScheduler启用Kerberos(亲测)
开启Kerberos时使用DolphinScheduler添加Hive数据源日志报错Peer indicated failure: Unsupported mechanism type PLAIN,在github的issue上有人说是bug,所以我手动编译3.1.4版本,问题依然存在,最终确定是依赖问题,下面附解决方法。kerberos命名规则,用户/主机@Realm,使用keytab,原来的密码失效(创建keytab可添加密码不失效参数-norandkey),一个用户可以访问所有服务。原创 2023-03-07 11:30:36 · 1411 阅读 · 3 评论 -
Win10搭建Pyspark2.4.4+Pycharm开发环境(亲测可用)
Win10搭建Pyspark2.4.4+Pycharm开发环境(亲测可用),包含常见问题及解决方法原创 2023-02-18 11:58:21 · 1192 阅读 · 0 评论 -
DolphinScheduler构建Kylin Cube脚本
DolphinScheduler构建Kylin Cube脚本原创 2023-02-07 17:59:39 · 137 阅读 · 0 评论 -
记录:FINEBI整合Kylin4查询无数据异常问题
问题描述:kylin开启数据下压,select * 查询正常返回数据,finebi sql数据集查询无数据,使用字段查询,部分字段能正常查询返回数据,但加上部分字段后,查询返回无数据,未报错原创 2023-02-01 16:27:35 · 271 阅读 · 0 评论 -
CDH6.3.2 Spark ON Yarn配置使用
CDH6.3.2 Spark ON Yarn配置使用,包含打包依赖分离,spark-submit的local模式,yarn的client,cluster模式的配置原创 2023-01-13 15:59:54 · 683 阅读 · 0 评论 -
CDH6.3.2整合DolphinScheduler3.0.0
CDH6.3.2整合DolphinScheduler3.0.0测试通过,正常启动原创 2023-01-05 17:55:11 · 2810 阅读 · 4 评论 -
Hive表Parquet格式:sql执行报错
Hive表Parquet格式:sql执行报错:UnsupportedOperationException原创 2022-09-29 16:19:33 · 1275 阅读 · 0 评论 -
Spark Upsert写入Mysql(scala增强) 无需依赖
Spark Upsert写入Mysql,scala增强,无入侵,无依赖第三方,做了简化合并,反射做了处理,spark2.4.xscala2.11可用。原创 2022-07-21 11:06:02 · 1213 阅读 · 1 评论 -
Hive Schema导出Mysql建表语句
val fileSystem=FileSystem.get(new Configuration())def mysqlType(col: String): String = { col.toLowerCase() match { case "bigint" => "bigint(50)" case "tinyint" => "tinyint(1)" case "smallint" => "smallint(5)" case "d.原创 2022-05-19 16:46:39 · 616 阅读 · 0 评论 -
Spark保存Parquet数据,自动转换成目标表数据类型
/** * 列名根据索引位置自动重命名,同名不同数据类型,自动强制转换类型 * * @param df 源dataframe * @param sqlName 目标表名 * @return 转换后的dataframe */ def castDf(df: DataFrame, sqlName: String): DataFrame = { val targetSql: String = s"select * from ${sqlName} lim...原创 2022-05-19 11:32:25 · 599 阅读 · 0 评论 -
Kylin构建Cube,突然一直构建失败(return code 2;state=08S01,code=2)
问题描述build日志的第一步就失败了报错信息:java.io.IOException: OS command error exit with return code: 2, error message: ls: cannot access /opt/odeon/hive/client/apache-hive-2.0.1-bin/lib/hive-jdbc-*-standalone.jar: No such file or directoryError: Error while proc原创 2022-04-20 10:31:18 · 3142 阅读 · 0 评论 -
Hadoop HA高可用故障转移(hdfs+yarn)
常用集群搭建脚本xsync.sh 文件或文件夹同步xcall.sh 在所有集群节点执行命令xnode.sh 在非master节点执行命令将脚本放在/usr/bin/或创建软连接 并授予执行权限HDFS HA配置文件core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</v..原创 2022-01-03 23:21:48 · 964 阅读 · 0 评论 -
springboot Phoenix开发(踩坑及解决方法)
首先呢,使用jdbc连接Phoenix,运气好,添加依赖,常规jdbc,之前,打包,运行,正常,这当然是理想的情况!所以我们来说不理想的情况,启动报 guava的错误啦,找不到驱动啦,idea启动正常,打包启动报错了,或者是第三方jar包太大,启动不了了,启动正常,报什么Inconsistent namespace mapping properties. Cannot initiate c...原创 2019-12-27 11:55:09 · 1192 阅读 · 0 评论 -
Mongodb副本集端口连接超时问题(修改副本集host)
问题描述线上mongodb启动正常 端口监听正常 bind_ip=0.0.0.0 防火墙关闭 nc -lk 27017,然后telnet localhost 27017不通其他端口正常,不知道是否服务器管理员屏蔽了端口,修改端口为17017,一切正常解决方法:当副本集所有节点都正常,强制修改副本集的host修改master.conf及其他配置端口启动mongodb副本集./mongod -f master.conf进入mongo,修改副本集hostmongo --p.原创 2021-09-27 14:40:31 · 1242 阅读 · 3 评论 -
Datax自定义Transformer数据清洗(使用本地加载local_storage解耦合)
准备 需要依赖(我的把源码下来,本地install,远程仓库是否有这两个依赖不确定) <dependency> <groupId>com.alibaba.datax</groupId> <artifactId>datax-core</artifactId> <version>0.0.1-SNAPSHOT</version>原创 2021-08-23 15:19:45 · 4484 阅读 · 5 评论 -
脚本化部署Hadoop完全分布式集群(centos7 minimal)
前置条件:配置好网络初始化环境yum install -y epel-releaseyum -y install wgetcd /etc/yum.repos.dmv ./CentOS-Base.repo ./CentOS-Base.repo.bakwget http://mirrors.163.com/.help/CentOS7-Base-163.repomv CentOS7-Base-163.repo /etc/yum.repos.d/CentOS-Base.repoyum clea原创 2021-08-10 20:27:20 · 235 阅读 · 0 评论 -
Kafka到Hdfs,大数据数据抽取,yyyy-MM-ddThh:mm:sssZ转yyyy-MM-dd hh:mm:ss
部署乱七八糟环境感觉还是用docker的好,虽然我不会,如果是内网的话,再让我选一次,我一定选docker,然而开发环境和部署环境各种不同,真的会搞死人.关于kafka重复数据,拉取不到最新数据,可能是配置consumer参数问题,如果设置的max.pool因为max.poll.interval.ms默认值为30000,设置的max.poll.records为1000,在阻塞时间内业务尚...原创 2019-09-26 19:05:27 · 236 阅读 · 0 评论 -
ClickHouse安装部署 外网访问,性能测试
在大数据量的统计分析计算方面,在我使用过的感觉算最快的先来个sum函数速度对比 3000w数据mysqlclickhouse一百倍差距,可能有点片面,但绝对有优势原创 2021-05-19 10:34:24 · 626 阅读 · 0 评论 -
spark整合flume(spark2.3.x之后移除对flume的支持,可采用flume->kafka->sparkstreaming)
版本说明 spark2.3.4 scala2.11.0 flume1.9.0 pom.xml <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <spark.version>2.原创 2021-05-10 16:15:34 · 229 阅读 · 0 评论 -
Centos7 安装Cm6.3.1+Cdh6.3.2
资源合集地址:先初始化服务器然后修改hosts文件vim /etc/hostsmaster 192.168.5.10node1 192.168.5.11node2 192.168.5.12yum -y install httpd createreposystemctl start httpdsystemctl enable httpd(不用执行)createrepo .将当前目录rpm添加到仓库,可以使用yum install 安装创建目录上传资源包到..原创 2020-06-18 15:47:08 · 1351 阅读 · 2 评论 -
Azkaban执行hive脚本 极简(org.apache.hadoop.fs.FileAlreadyExistsException: Parent path is not a directory)
前提hadoop 和azkaban都已经装好了hive -f test.hql或者hive -f test.sql脚本提前写好如果报错org.apache.hadoop.fs.FileAlreadyExistsException: Parent path is not a directory: /user userhadoop fs -rm -r -skipTrash /u...原创 2019-05-21 21:42:55 · 1973 阅读 · 2 评论 -
Azkaban3.72.1 centos7 安装部署 踩坑指南
Centos7虽然是虚拟机,我装带界面的有的黑屏有的正常,一怒,直接xshell+Centos服务器版,真刺激,舒服,纵享丝滑。。。JAVA下载jdk1.8+,你直接用centos下open-jdk也可以,也有报错的可能官网jdk包链接: https://pan.baidu.com/s/1En7qcf1395rUauEaCv8kkg 提取码: 99p2配置方法:https:...原创 2019-05-10 01:22:57 · 989 阅读 · 0 评论 -
java 使用jdbc连接hive
hive要启动hiveserver2hive --service hiveserver2 &原创 2020-01-16 20:27:59 · 153 阅读 · 0 评论 -
Java 远程操作Hive
声明:我不生成代码,只是代码的搬运工,然后整合优化下,毕竟轮子都是圆的maven依赖 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> ...转载 2019-08-30 11:51:36 · 318 阅读 · 0 评论 -
Azkaban 执行hive脚本 并从文件导入数据(org.apache.hadoop.security.AccessControlException: Permission denied...)
报异常FAILED: Error in metadata: MetaException(message:Got exception: org.apache.hadoop.security.AccessControlException org.apache.hadoop.security.AccessControlException: Permission denied: user=aseema...原创 2019-05-22 12:47:05 · 960 阅读 · 0 评论 -
idea+sbt+scala创建项目成功
一使用Idea创建项目选择sbt的时候sbt版本1.2.8,不然你下到明年项目也成功不了二scala2.11.2(跟你Hadoop集群环境)sbt配置国内镜像,sbt的安装目录最好不要有空,不然改国内仓库无效idea配置参数配置-Dsbt.boot.directory=C:/Users/zakza/.sbt/boot-Dsbt.global.base=C:/Users/zakza/.sbt-Dsbt.ivy.home=C:/Users/zakza/.ivy2-D.原创 2020-07-18 13:43:59 · 284 阅读 · 0 评论 -
Java+SparkStreaming
配置pom依赖注意cdh版本对应的各种组件版本,注意scala版本http://www.luyixian.cn/news_show_385243.aspxspark-shell --version查看版本例如CDH6.3.2对应spark 2.4.0,scala2.11<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2原创 2020-06-19 16:14:04 · 186 阅读 · 0 评论 -
spark集群启动后WorkerUI界面看不到Workers解决
关闭防火墙修改conf/spark-env.sh 设置主节点信息和当前节点ip 添加slaves文件添加节点ip或hostnamespark-env.sh最后添加,其他节点修改这个文件export SPARK_MASTER_HOST=192.168.5.10export SPARK_MASTER_IP=192.168.5.10export SPARK_MASTER_PORT=7077export SPARK_LOCAL_IP=192.168.5.10slaves添加maste.原创 2020-06-19 10:49:19 · 2461 阅读 · 2 评论 -
Springboot kafka+sparkStreaming+sparksql 笔记一
sparkstreaming消费kafka消息两种方式:关于两种方式的区别,网上一堆,不写了KafkaUtils.createStream这种方式,自动管理offset,测试无法通过修改groupid,重新获取所有消息,一次性会把当前kafka中的所有消息全部获取到,不出错,没问题,随便出个异常,例如网络波动,导致所有消息全部丢失,无法再消费,感觉不正常,之前使用springboot的k...原创 2019-10-29 17:34:52 · 730 阅读 · 0 评论 -
org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus的guava的StopWatch的IllegalAccessError
原因是:hadoop的2.6.2版本:hadoop-mapreduce-client-core不能与guava的新版本一起使用(我试过17.0 – 19.0),因为无法访问guava的StopWatch构造函数(导致上面的IllegalAccessError)解决方法:spark和guava版本兼容问题,hadoop-client用2.7.2<?xml version="1.0" ...原创 2019-10-15 11:04:14 · 522 阅读 · 0 评论 -
使用Cloudare manager安装cdh
基本步骤参考https://www.jianshu.com/p/1ed522c1ad1ecm是试用版本需要处理踩坑一:缺少mysql驱动,用户授权踩坑二:仓库地址为http://192.168.5.10/cm-5.15.0原创 2020-06-16 19:01:40 · 416 阅读 · 0 评论 -
使用Hadoop Api操作hdfs时处理租约问题及异常处理
hadoop的FileSystem追加时异常1.org.apache.hadoop.hdfs.protocol.RecoveryInProgressException2.org.apache.hadoop.hdfs.protocol.RecoveryInProgressException配置 Configuration conf = new Configuratio...原创 2020-01-20 15:55:29 · 742 阅读 · 0 评论 -
kylin测试构建cube时错误(个人笔记)
我使用的spark(beat)引擎,未加参数,1.使用MapReduce引擎,如果报找不到hive-site.xml,在cube的参数设置添加 kylin.cube.aggrgroup.is-mandatory-only-valid=true网上说修改kylin.properties里面的hadoop.env.xxx=/etc/hive/conf 测试对我无效...原创 2020-02-26 14:34:58 · 560 阅读 · 0 评论 -
数据量大的时候前后端服务问题 net::ERR_INCOMPLETE_CHUNKED_ENCODING error或Fail to load response data
java服务报错 Broken pipe ... Connection reset peer尝试过得方法springboot配置server: tomcat: max-http-header-size: 102400设置环境变量 _JAVA_RS_SIGNUM=12net::ERR_INCOMPLETE_CHUNKED_ENCODING error或Fai...原创 2019-11-01 00:50:16 · 1552 阅读 · 0 评论 -
sqoop使用注意事项一
1.非关系型数据库(hive)字段类型,长度和关系型数据库要对应(mysql和sqlserver有部分区别,不通用)2.导出的数据量过大,SqlServer要注意设置表结构的大小,不然后报异常3.导出时间格式最好用字符串类型,时间类型要统一,不会自动转换4.hive中的默认字符串空值和数字类型空值 一个为\N一个为0导出到关系型数据库要在sqoop中配置参数处理5.在导出过程中不要操作目标表,有事会卡死,在Hadoop上可以查看,然后把进程重跑...原创 2020-05-09 09:20:26 · 382 阅读 · 0 评论