- 博客(640)
- 资源 (13)
- 收藏
- 关注
原创 flink SQL报错java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLj
问题flink SQL连接hive以及hudi 报错java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V,查询资料后发现就是guava版本冲突造成的。hive 3.1.2版本内置的guava是19.0版本的,而hadoop中的guava是27.0-jre版本的,flink内置的guava也有多个版本。彼此之间版本就冲突了
2021-10-12 21:21:01 3199 2
原创 查看主机外网IP地址
命令行查询(详细):UNIX/Linux:# curl cip.ccWindows:>telnet cip.cc >ftp cip.cc命令行查询(纯ip):UNIX/Linux:# curl ip.cip.cc
2021-09-28 17:12:03 645
原创 备份Hive中的建表语句
需要做数据备份,将hive中的表结构全部导出来:$ cat create_table_statement.sh#/bin/bashdb=odstbls=`hive -e "use $db;show tables"`for tbl in $tbls;do statement=`hive -e "use $db;show create table $tbl"` echo $statement >> $db"_statement.sql"done...
2021-09-27 18:50:22 541
原创 Flink + Hudi demo 环境
版本flink 版本: Flink 1.12.5Scala版本:2.12Hudi版本:0.9.0将hudi-flink-bundle_2.12-0.9.0.jar放入flink的lib目录下。
2021-09-26 20:07:43 1373
原创 SparkSQL查询Apache Hudi表进入命令
bin/spark-sql --jars hudi-spark3-bundle_2.12-0.9.0.jar \--packages org.apache.spark:spark-avro_2.12:3.1.2 \--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExt
2021-09-23 15:12:21 566
原创 cloudera-repos 地址
cloudera-repos 地址:https://repository.cloudera.com/artifactory/cloudera-repos/
2021-09-23 13:33:29 770
原创 spark写hudi:NoSuchMethodError: org.apache.jetty.server.session.SessionHandler.setHttpOnly(Z)V
前提Hudi version : 0.9.0Spark version : 3.1.2Hive version : 2.1.1-cdh6.3.2Hadoop version : 3.0.0-cdh6.3.2报错日志:scala> df.write.format("hudi"). | options(getQuickstartWriteConfigs). | option(PRECOMBINE_FIELD_OPT_KEY, "ts"). | opti
2021-09-18 17:23:25 1290
原创 spark-sql 查询报错:Invalid method name: ‘get_table_req‘
spark-sql> select * from zps_d001 limit 1;Error in query: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table zps_xxx. Invalid method name: 'get_table_req'org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.H
2021-09-18 16:42:38 3170
原创 自行编译spark适配CDH 6.3.2
我们用的是CDH 6.3.2,内置的spark版本是2.4.0,有两个问题:cdh6之后就取消了spark-sql客户端hudi 0.9.0 仅支持 spark 2.4.4之后的版本所以就想自己安装个spark使用。1.下载spark 3.1.2 版本源码https://spark.apache.org/downloads.html2.修改pom文件增加cloudera maven仓库<repositories> <repository> <
2021-09-18 15:18:23 3089 12
原创 hive 解析 jsonArray,且jsonArray数组中的个数未知【json_tuple,lateral view,explode】
例如:一个JSONArray为:[{"id":"1","name":"zhangsan"},{"id":"2","name":"lisi"},{"id":"3","name":"wangwu"},...]用 get_json_object() 处理这种并不是很友好:我们可以这样:SELECT explode(split(regexp_replace(regexp_replace( '[{"id":"1","name":"zhangsan"},{"id":"2","name":"lisi"},
2021-09-17 21:47:16 1178
转载 maven中pom文件中scope的作用
Dependency Scope<dependency>中还引入了<scope>,它主要管理依赖的部署。目前<scope>可以使用5个值:compile默认就是compile,什么都不配置也就是意味着compile。compile表示被依赖项目需要参与当前项目的编译,当然后续的测试,运行周期也参与其中,是一个比较强的依赖。打包的时候通常需要包含进去。testscope为test表示依赖项目仅仅参与测试相关的工作,包括测试代码的编译,执行。比较典型的如junit。
2021-09-16 18:07:42 505
原创 spark 写入 hudi 报错
java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String;)Lorg/apache/hadoop/io/nativeio/NativeIO$POSIX$Stat; at org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Native Method) at org.apache.hadoo
2021-09-16 17:02:53 626
原创 spark-without-hadoop 运行时ClassNotFoundException报错解决办法
下载的spark-3.1.2-bin-without-hadoop.tgz。1.ClassNotFoundException: org.apache.log4j.spi.Filter启动刚下载的spark就报错:$ ./bin/spark-shell Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefF
2021-09-15 19:23:09 2151
原创 Apache Hudi基础知识整理
文章目录特性TimelineFile LayoutIndexTable Types& QueriesCopy on Write TableMerge on Read Table本文整理自其他技术博文。特性(1)快速upsert,可插入索引(2)以原子方式操作数据并具有回滚功能(3)写入器之和查询之间的快照隔离(4)savepoint用户数据恢复的保存点(5)管理文件大小,使用统计数据布局(6)异步压缩行列数据(7)具有时间线来追踪元数据血统(8)通过聚类优化数据集Timelin
2021-09-14 15:54:08 816
原创 如何查看CDH修改参数记录
参考:https://blog.csdn.net/summer089089/article/details/1073221071.通过组件的CM主界面进入下图,点击 “快速链接”–“全部”。2.进入界面的后来到下图,筛选框选择如下,选择对应时间段,然后点击记录后面的“查看”。3.然后跳转到如下界面:4.点击详细信息就能看到以前改过的配置信息...
2021-09-07 11:30:01 801
转载 yum的repo文件详解、以及epel简介、yum源的更换
一、什么是repo文件repo文件是Fedora中yum源(软件仓库)的配置文件,通常一个repo文件定义了一个或者多个软件仓库的细节内容,例如我们将从哪里下载需要安装或者升级的软件包,repo文件中的设置内容将被yum读取和应用!YUM的工作原理并不复杂,每一个 RPM软件的头(header)里面都会纪录该软件的依赖关系,那么如果可以将该头的内容纪录下来并且进行分析,可以知道每个软件在安装之前需要额外安装 哪些基础软件。也就是说,在服务器上面先以分析工具将所有的RPM档案进行分析,然后将该分析纪录下来
2021-09-07 10:41:40 5644
原创 Permission denied (publickey,gssapi-keyex,gssapi-with-mic) 解决方法
背景:我从一台服务器上同步数据到另一台服务器上:# [star-001 root 15:12:14] [五 9月 03] $ rsync fe/ xxx@xxx:/data/software/xxx/Permission denied (publickey,gssapi-keyex,gssapi-with-mic).rsync: connection unexpectedly closed (0 bytes received so far) [sender]rsync error: unexpl
2021-09-03 15:27:42 2473
原创 Apache Doris 0.14.0 编译部署安装过程记录
使用 Docker 开发镜像编译下载镜像docker pull apache/incubator-doris:build-env-1.3.1在本地下载源码(非容器内)$ mkdir -p /data/software/doris/src$ cd /data/software/doris/src$ git clone https://github.com/apache/incubator-doris.git或者下载清华大学的国内镜像(很快,但是要指定版本路径):https://mirror
2021-09-02 20:13:10 895 1
转载 sqoop的eval工具 清空mysql表
eval像是一个数据库的客户端工具。使用eval来查询表sqoop eval \--connect jdbc:mysql://123.123.4.52:3306/linshi_1 \--username root \--password 1313134 \--query "select * from e_board"使用eval来插入删除数据sqoop eval \--connect jdbc:mysql://11.34.33.22:3306/linshi_1 \--username
2021-09-01 21:54:47 1022 1
原创 Linux下 Redis 6.x 编译安装 部署
下载源码编译$ wget http://download.redis.io/releases/redis-6.0.5.tar.gz$ tar zxvf redis-6.0.5.tar.gz$ cd redis-6.0.5$ make然后这一步可能会出现很多错误。查看gcc 版本:gcc -v在别的地方看到说Redis 6.x版本的编译需要gcc 9.x版本的(未经考证,但是升级以后确实能解决编译错误)。解决方案:升级gcc版本到9.x,再执行编译# gcc -v
2021-08-31 11:08:36 480
转载 hive传递参数与调用(hive SQL 脚本传参)
在运行hive命令时传入参数,使用-hivevar 和 -hiveconf 两种参数选项,来给此次的执行脚本传入参数-hivevar : 传参数 ,专门提供给用户自定义变量。-hiveconf : 传参数,包括了hive-site.xml中配置的hive全局变量。(1)脚本调用test.sqluse default;select '${hiveconf:month}' as monthfrom default.user1;start.sh#!/bin/sh#ecoding=utf-8
2021-08-26 10:49:30 5833
原创 win10系统下 Anaconda 自带的 python 在 cmd 中 输入总是自动弹出微软应用商店
现象环境变量配置也没问题,但是在cmd中输入python命令总是自动弹出应用商店。解决办法参考:https://blog.csdn.net/weixin_41655940/article/details/102724871将%USERPROFILE%\AppData\Local\Microsoft\WindowsApps 移动到最后一行即可。又一个问题这时候问题又来了,移动完之后本来是多行显示的,变成一行的了,看着很不方便:解决办法将C:\WINDOWS\system32;放在环境变量的
2021-08-25 15:51:51 809
原创 CDH 集群配置 kerberos 过程
前提是安装好了CDH启用kerberos所需的组件:kerberos,Ldap,IPA接上一篇:大数据集群 Kerberos 安装记录第一步 选择管理->安全第二步 启用kerberos按照步骤,打上对即可第三步 配置KDC信息第四步 ,这里不选最好不要通过CM管理krb5.conf,我感觉,要不然以后想修改个配置什么的比较麻烦第五步 配置在KDC中给CM开的管理员账户第六步 默认不需要修改这里一般不需要修改第七步点继续,按照提示往下走就可以了,都是自动的,这个过程
2021-08-19 15:26:48 432
原创 HDFS 报错笔记
单纯为了记录一下 Failed to close HDFS file: hdfs://nameservice1/user/hive/warehouse/xxx.db/xxx/_impala_insert_staging/fa4602d41f654358_eb936b0c00000000/.fa4602d41f654358-eb936b0c00000049_707658236_dir/dt=2021-08-17/fa4602d41f654358-eb936b0c00000049_390887387_.
2021-08-18 13:54:02 1049
原创 大数据集群 Kerberos 安装记录
文章目录server/client 端安装配置在cdh05安装服务端修改配置文件配置 /var/kerberos/krb5kdc/kdc.conf 文件配置/var/kerberos/krb5kdc/kadm5.acl文件创建生成kerberos的KDC数据库文件启动kerberos服务设置kdc、kadmin开机自启安装kerberos客户端测试kerberos安装是否成功在kerberos任意客户端节点执行初始化及登录命令附录server/client 端安装配置在cdh05安装服务端yum in
2021-08-17 16:52:53 432
原创 电脑C盘无缘无故就占满了
6月份才买的新电脑,我给C盘预留了155G的空间,这才用了2个月,系统盘剩余空间就只剩下10G左右了,但是查看C盘里的文件,一共才占用了54G多点的空间,那么剩余的空间被那里占了???后来看到https://zhidao.baidu.com/question/420124550.html 帖子,按照帖子上的方法,一下子空间就又满血复活了,特此记录一下:123 把这个参数设置的小一点就可以了...
2021-08-13 17:45:48 4000 1
原创 A read-only user or a user in a read-only database is not permitted to disable read-only mode
Sqoop同步数据时候报错:21/08/13 02:02:58 ERROR bonecp.PoolWatchThread: Error in trying to obtain a connection. Retrying in 7000ms java.sql.SQLException: A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection.
2021-08-13 14:29:02 909
转载 ConcurrentLinkedHashMap 自动实现LRU策略
本文转载自: https://blog.csdn.net/newbie0107/article/details/102512599<!-- https://mvnrepository.com/artifact/com.googlecode.concurrentlinkedhashmap/concurrentlinkedhashmap-lru --><dependency> <groupId>com.googlecode.concurrentlinkedhash
2021-08-10 13:39:10 1176
转载 Java 自定义实现LRU HashMap
LinkedHashMap继承自HashMap,内部提供了一个removeEldestEntry方法,该方法正是实现LRU策略的关键所在,且HashMap内部专门为LinkedHashMap提供了3个专用回调方法,afterNodeAccess、afterNodeInsertion、afterNodeRemoval,这3个方法的字面意思非常容易理解,就是节点访问后、节点插入后、节点删除后分别执行的行为。基于以上行为LinkedHashMap就可以实现一个LRUCache的功能了。关于LinkedHashM
2021-08-10 11:27:22 400
原创 hadoop NameNode 配置HA后不生效问题
现象最早Hadoop的NameNode是没有配置HA的,后面配置了HA后发现NameNode发生切换之后表还是不能正常查询了,经过DESCRIBE formatted xxx之后发现,配置过HA之后新建的表的Location仍然是hdfs://host:8020/user/hive/warehouse/xxx.db/xxx而不是配置的Nameservice名称排查经过排查发现配置HA之后新建的数据库里的表,在发生NameNode切换之后仍然能正常查询,推测可能是跟hive的元数据库有关。查看h
2021-08-09 19:07:55 465
转载 elasticsearch index 之 Translog
文章摘抄自:https://www.cnblogs.com/fengda/p/10348606.htmlhttps://blog.51cto.com/sbp810050504/2393306https://www.cnblogs.com/zziawanblog/p/6793555.htmltranslog是elasticsearch的事务日志文件,它记录了所有对索引分片的事务操作(add/update/delete),每个分片对应一个translog文件。跟大多数分布式系统一样,es也通过临时
2021-08-06 10:04:17 717
原创 【算法题】给定两个数组a和b,判断a中是否有全局顺序出现的b序列
例如:int[] a = {3, 1, 2, 5, 4, 6, 8, 7, 3, 2, 5, 9, 4};int[] b = {2, 3, 4};因为a中的第3、9、13 个元素分别就是b中的元素顺序,因此判断结果为Trueint[] a = {3, 1, 2, 5, 4, 6, 8, 7, 3, 2, 5, 9, 4};int[] b = {1, 9, 3};这种情况就为false,因为a中没有全局顺序出现的1, 9, 3序列。解题思路:public boolean test() {
2021-08-01 18:14:17 405
原创 天池 - 用户行为分析数据集地址
地址传送:https://tianchi.aliyun.com/dataset/dataDetail?dataId=72423说明:本数据集共有104万条左右数据,数据为淘宝APP2014年11月18日至2014年12月18日的用户行为数据,共计6列字段,列字段分别是: user_id:用户身份,脱敏 item_id:商品ID,脱敏 behavior_type:用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1、2、3、4表示) user_geohash:地理位置 item_categ.
2021-08-01 17:14:43 466
原创 Impala SQL解决动态分区 过多小文件问题
在执行的SQL前加上:set NUM_NODES=1;如下:set NUM_NODES=1;refresh ods.ods_sensors_share_event_text;insert overwrite dwd.dwd_sensors_share_event partition(`date`)selectshare_type,url,share_user_id,share_result,site_resource,is_employee,replace(regexp_extract(
2021-07-30 11:30:45 884
原创 SQL 的 WITH ROLLUP 用法
MySQL中有个 with rollup 语法,用法是跟在group by 字段之后 ,可以在分组字段的基础上做一个汇总统计。例如以下SQL:就是在company的基础上又做了一个汇总,这个对于数据分析很有帮助。
2021-07-29 19:20:02 6321
转载 【SQL】用户中两人一定认识的组合数
设表名:table0现有城市网吧访问数据,字段:网吧id,访客id(身份证号),上线时间,下线时间:规则1、如果有两个用户在一家网吧的前后上下线时间在10分钟以内,则两人可能认识规则2、如果这两个用户在三家以上网吧出现【规则1】的情况,则两人一定认识需求:该城市上网用户中两人一定认识的组合数。表如下:...
2021-07-29 14:58:53 257
原创 计算相互关注类型的SQL
计算相互关注类型的SQL,这是前一段时间某公司的面试题,有多种思路,我这里简单实现两种:gift表: 代表着`uid`给`to_uid` 送了礼物follow表:代表`uid`关注了`to_uid`
2021-07-26 20:58:45 825
hadoop-2.7.2.zip
2020-09-16
pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar
2020-08-19
sqoop-1.4.6.2.3.99.0-195.jar..zip
2020-08-14
javax.jms-1.1.jar.7z
2020-08-14
十大数据分析模型详解_白皮书.pdf
2020-06-24
mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi
2020-06-05
Apache Flink结合Apache Kafka实现端到端的一致性语义.pdf
2019-05-16
数据仓库数据分层结构
2019-03-02
HBase权威指南
2019-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人