自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ChengYanan的博客

大数据技术学习园地

  • 博客(640)
  • 资源 (13)
  • 收藏
  • 关注

原创 flink SQL报错java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLj

问题flink SQL连接hive以及hudi 报错java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V,查询资料后发现就是guava版本冲突造成的。hive 3.1.2版本内置的guava是19.0版本的,而hadoop中的guava是27.0-jre版本的,flink内置的guava也有多个版本。彼此之间版本就冲突了

2021-10-12 21:21:01 3199 2

原创 查看主机外网IP地址

命令行查询(详细):UNIX/Linux:# curl cip.ccWindows:>telnet cip.cc >ftp cip.cc命令行查询(纯ip):UNIX/Linux:# curl ip.cip.cc

2021-09-28 17:12:03 645

原创 备份Hive中的建表语句

需要做数据备份,将hive中的表结构全部导出来:$ cat create_table_statement.sh#/bin/bashdb=odstbls=`hive -e "use $db;show tables"`for tbl in $tbls;do statement=`hive -e "use $db;show create table $tbl"` echo $statement >> $db"_statement.sql"done...

2021-09-27 18:50:22 541

原创 Flink + Hudi demo 环境

版本flink 版本: Flink 1.12.5Scala版本:2.12Hudi版本:0.9.0将hudi-flink-bundle_2.12-0.9.0.jar放入flink的lib目录下。

2021-09-26 20:07:43 1373

原创 SparkSQL查询Apache Hudi表进入命令

bin/spark-sql --jars hudi-spark3-bundle_2.12-0.9.0.jar \--packages org.apache.spark:spark-avro_2.12:3.1.2 \--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExt

2021-09-23 15:12:21 566

原创 cloudera-repos 地址

cloudera-repos 地址:https://repository.cloudera.com/artifactory/cloudera-repos/

2021-09-23 13:33:29 770

原创 spark写hudi:NoSuchMethodError: org.apache.jetty.server.session.SessionHandler.setHttpOnly(Z)V

前提Hudi version : 0.9.0Spark version : 3.1.2Hive version : 2.1.1-cdh6.3.2Hadoop version : 3.0.0-cdh6.3.2报错日志:scala> df.write.format("hudi"). | options(getQuickstartWriteConfigs). | option(PRECOMBINE_FIELD_OPT_KEY, "ts"). | opti

2021-09-18 17:23:25 1290

原创 spark-sql 查询报错:Invalid method name: ‘get_table_req‘

spark-sql> select * from zps_d001 limit 1;Error in query: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table zps_xxx. Invalid method name: 'get_table_req'org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.H

2021-09-18 16:42:38 3170

原创 自行编译spark适配CDH 6.3.2

我们用的是CDH 6.3.2,内置的spark版本是2.4.0,有两个问题:cdh6之后就取消了spark-sql客户端hudi 0.9.0 仅支持 spark 2.4.4之后的版本所以就想自己安装个spark使用。1.下载spark 3.1.2 版本源码https://spark.apache.org/downloads.html2.修改pom文件增加cloudera maven仓库<repositories> <repository> <

2021-09-18 15:18:23 3089 12

原创 hive 解析 jsonArray,且jsonArray数组中的个数未知【json_tuple,lateral view,explode】

例如:一个JSONArray为:[{"id":"1","name":"zhangsan"},{"id":"2","name":"lisi"},{"id":"3","name":"wangwu"},...]用 get_json_object() 处理这种并不是很友好:我们可以这样:SELECT explode(split(regexp_replace(regexp_replace( '[{"id":"1","name":"zhangsan"},{"id":"2","name":"lisi"},

2021-09-17 21:47:16 1178

转载 maven中pom文件中scope的作用

Dependency Scope<dependency>中还引入了<scope>,它主要管理依赖的部署。目前<scope>可以使用5个值:compile默认就是compile,什么都不配置也就是意味着compile。compile表示被依赖项目需要参与当前项目的编译,当然后续的测试,运行周期也参与其中,是一个比较强的依赖。打包的时候通常需要包含进去。testscope为test表示依赖项目仅仅参与测试相关的工作,包括测试代码的编译,执行。比较典型的如junit。

2021-09-16 18:07:42 505

原创 spark 写入 hudi 报错

java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String;)Lorg/apache/hadoop/io/nativeio/NativeIO$POSIX$Stat; at org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Native Method) at org.apache.hadoo

2021-09-16 17:02:53 626

原创 spark-without-hadoop 运行时ClassNotFoundException报错解决办法

下载的spark-3.1.2-bin-without-hadoop.tgz。1.ClassNotFoundException: org.apache.log4j.spi.Filter启动刚下载的spark就报错:$ ./bin/spark-shell Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefF

2021-09-15 19:23:09 2151

原创 Apache Hudi基础知识整理

文章目录特性TimelineFile LayoutIndexTable Types& QueriesCopy on Write TableMerge on Read Table本文整理自其他技术博文。特性(1)快速upsert,可插入索引(2)以原子方式操作数据并具有回滚功能(3)写入器之和查询之间的快照隔离(4)savepoint用户数据恢复的保存点(5)管理文件大小,使用统计数据布局(6)异步压缩行列数据(7)具有时间线来追踪元数据血统(8)通过聚类优化数据集Timelin

2021-09-14 15:54:08 816

转载 Spark Sql 解析JSON

sparksql直接用data加下标就可以读data数组中的元素

2021-09-14 10:21:17 704

原创 如何查看CDH修改参数记录

参考:https://blog.csdn.net/summer089089/article/details/1073221071.通过组件的CM主界面进入下图,点击 “快速链接”–“全部”。2.进入界面的后来到下图,筛选框选择如下,选择对应时间段,然后点击记录后面的“查看”。3.然后跳转到如下界面:4.点击详细信息就能看到以前改过的配置信息...

2021-09-07 11:30:01 801

转载 yum的repo文件详解、以及epel简介、yum源的更换

一、什么是repo文件repo文件是Fedora中yum源(软件仓库)的配置文件,通常一个repo文件定义了一个或者多个软件仓库的细节内容,例如我们将从哪里下载需要安装或者升级的软件包,repo文件中的设置内容将被yum读取和应用!YUM的工作原理并不复杂,每一个 RPM软件的头(header)里面都会纪录该软件的依赖关系,那么如果可以将该头的内容纪录下来并且进行分析,可以知道每个软件在安装之前需要额外安装 哪些基础软件。也就是说,在服务器上面先以分析工具将所有的RPM档案进行分析,然后将该分析纪录下来

2021-09-07 10:41:40 5644

原创 Permission denied (publickey,gssapi-keyex,gssapi-with-mic) 解决方法

背景:我从一台服务器上同步数据到另一台服务器上:# [star-001 root 15:12:14] [五 9月 03] $ rsync fe/ xxx@xxx:/data/software/xxx/Permission denied (publickey,gssapi-keyex,gssapi-with-mic).rsync: connection unexpectedly closed (0 bytes received so far) [sender]rsync error: unexpl

2021-09-03 15:27:42 2473

原创 Apache Doris 0.14.0 编译部署安装过程记录

使用 Docker 开发镜像编译下载镜像docker pull apache/incubator-doris:build-env-1.3.1在本地下载源码(非容器内)$ mkdir -p /data/software/doris/src$ cd /data/software/doris/src$ git clone https://github.com/apache/incubator-doris.git或者下载清华大学的国内镜像(很快,但是要指定版本路径):https://mirror

2021-09-02 20:13:10 895 1

转载 sqoop的eval工具 清空mysql表

eval像是一个数据库的客户端工具。使用eval来查询表sqoop eval \--connect jdbc:mysql://123.123.4.52:3306/linshi_1 \--username root \--password 1313134 \--query "select * from e_board"使用eval来插入删除数据sqoop eval \--connect jdbc:mysql://11.34.33.22:3306/linshi_1 \--username

2021-09-01 21:54:47 1022 1

原创 Linux下 Redis 6.x 编译安装 部署

下载源码编译$ wget http://download.redis.io/releases/redis-6.0.5.tar.gz$ tar zxvf redis-6.0.5.tar.gz$ cd redis-6.0.5$ make然后这一步可能会出现很多错误。查看gcc 版本:gcc -v在别的地方看到说Redis 6.x版本的编译需要gcc 9.x版本的(未经考证,但是升级以后确实能解决编译错误)。解决方案:升级gcc版本到9.x,再执行编译# gcc -v

2021-08-31 11:08:36 480

转载 hive传递参数与调用(hive SQL 脚本传参)

在运行hive命令时传入参数,使用-hivevar 和 -hiveconf 两种参数选项,来给此次的执行脚本传入参数-hivevar : 传参数 ,专门提供给用户自定义变量。-hiveconf : 传参数,包括了hive-site.xml中配置的hive全局变量。(1)脚本调用test.sqluse default;select '${hiveconf:month}' as monthfrom default.user1;start.sh#!/bin/sh#ecoding=utf-8

2021-08-26 10:49:30 5833

原创 win10系统下 Anaconda 自带的 python 在 cmd 中 输入总是自动弹出微软应用商店

现象环境变量配置也没问题,但是在cmd中输入python命令总是自动弹出应用商店。解决办法参考:https://blog.csdn.net/weixin_41655940/article/details/102724871将%USERPROFILE%\AppData\Local\Microsoft\WindowsApps 移动到最后一行即可。又一个问题这时候问题又来了,移动完之后本来是多行显示的,变成一行的了,看着很不方便:解决办法将C:\WINDOWS\system32;放在环境变量的

2021-08-25 15:51:51 809

原创 CDH 集群配置 kerberos 过程

前提是安装好了CDH启用kerberos所需的组件:kerberos,Ldap,IPA接上一篇:大数据集群 Kerberos 安装记录第一步 选择管理->安全第二步 启用kerberos按照步骤,打上对即可第三步 配置KDC信息第四步 ,这里不选最好不要通过CM管理krb5.conf,我感觉,要不然以后想修改个配置什么的比较麻烦第五步 配置在KDC中给CM开的管理员账户第六步 默认不需要修改这里一般不需要修改第七步点继续,按照提示往下走就可以了,都是自动的,这个过程

2021-08-19 15:26:48 432

原创 HDFS 报错笔记

单纯为了记录一下 Failed to close HDFS file: hdfs://nameservice1/user/hive/warehouse/xxx.db/xxx/_impala_insert_staging/fa4602d41f654358_eb936b0c00000000/.fa4602d41f654358-eb936b0c00000049_707658236_dir/dt=2021-08-17/fa4602d41f654358-eb936b0c00000049_390887387_.

2021-08-18 13:54:02 1049

原创 大数据集群 Kerberos 安装记录

文章目录server/client 端安装配置在cdh05安装服务端修改配置文件配置 /var/kerberos/krb5kdc/kdc.conf 文件配置/var/kerberos/krb5kdc/kadm5.acl文件创建生成kerberos的KDC数据库文件启动kerberos服务设置kdc、kadmin开机自启安装kerberos客户端测试kerberos安装是否成功在kerberos任意客户端节点执行初始化及登录命令附录server/client 端安装配置在cdh05安装服务端yum in

2021-08-17 16:52:53 432

原创 电脑C盘无缘无故就占满了

6月份才买的新电脑,我给C盘预留了155G的空间,这才用了2个月,系统盘剩余空间就只剩下10G左右了,但是查看C盘里的文件,一共才占用了54G多点的空间,那么剩余的空间被那里占了???后来看到https://zhidao.baidu.com/question/420124550.html 帖子,按照帖子上的方法,一下子空间就又满血复活了,特此记录一下:123 把这个参数设置的小一点就可以了...

2021-08-13 17:45:48 4000 1

原创 A read-only user or a user in a read-only database is not permitted to disable read-only mode

Sqoop同步数据时候报错:21/08/13 02:02:58 ERROR bonecp.PoolWatchThread: Error in trying to obtain a connection. Retrying in 7000ms java.sql.SQLException: A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection.

2021-08-13 14:29:02 909

原创 【未解决】Oozie 配置HA 过程中出现的问题

2021-08-12 17:13:46 191

转载 ConcurrentLinkedHashMap 自动实现LRU策略

本文转载自: https://blog.csdn.net/newbie0107/article/details/102512599<!-- https://mvnrepository.com/artifact/com.googlecode.concurrentlinkedhashmap/concurrentlinkedhashmap-lru --><dependency> <groupId>com.googlecode.concurrentlinkedhash

2021-08-10 13:39:10 1176

转载 Java 自定义实现LRU HashMap

LinkedHashMap继承自HashMap,内部提供了一个removeEldestEntry方法,该方法正是实现LRU策略的关键所在,且HashMap内部专门为LinkedHashMap提供了3个专用回调方法,afterNodeAccess、afterNodeInsertion、afterNodeRemoval,这3个方法的字面意思非常容易理解,就是节点访问后、节点插入后、节点删除后分别执行的行为。基于以上行为LinkedHashMap就可以实现一个LRUCache的功能了。关于LinkedHashM

2021-08-10 11:27:22 400

原创 hadoop NameNode 配置HA后不生效问题

现象最早Hadoop的NameNode是没有配置HA的,后面配置了HA后发现NameNode发生切换之后表还是不能正常查询了,经过DESCRIBE formatted xxx之后发现,配置过HA之后新建的表的Location仍然是hdfs://host:8020/user/hive/warehouse/xxx.db/xxx而不是配置的Nameservice名称排查经过排查发现配置HA之后新建的数据库里的表,在发生NameNode切换之后仍然能正常查询,推测可能是跟hive的元数据库有关。查看h

2021-08-09 19:07:55 465

原创 Impala UDFs 读取外部文件

为了安全起见,Impala的UDF是不允许读取外部文件的:

2021-08-09 10:25:44 296

转载 elasticsearch index 之 Translog

文章摘抄自:https://www.cnblogs.com/fengda/p/10348606.htmlhttps://blog.51cto.com/sbp810050504/2393306https://www.cnblogs.com/zziawanblog/p/6793555.htmltranslog是elasticsearch的事务日志文件,它记录了所有对索引分片的事务操作(add/update/delete),每个分片对应一个translog文件。跟大多数分布式系统一样,es也通过临时

2021-08-06 10:04:17 717

原创 【算法题】给定两个数组a和b,判断a中是否有全局顺序出现的b序列

例如:int[] a = {3, 1, 2, 5, 4, 6, 8, 7, 3, 2, 5, 9, 4};int[] b = {2, 3, 4};因为a中的第3、9、13 个元素分别就是b中的元素顺序,因此判断结果为Trueint[] a = {3, 1, 2, 5, 4, 6, 8, 7, 3, 2, 5, 9, 4};int[] b = {1, 9, 3};这种情况就为false,因为a中没有全局顺序出现的1, 9, 3序列。解题思路:public boolean test() {

2021-08-01 18:14:17 405

原创 天池 - 用户行为分析数据集地址

地址传送:https://tianchi.aliyun.com/dataset/dataDetail?dataId=72423说明:本数据集共有104万条左右数据,数据为淘宝APP2014年11月18日至2014年12月18日的用户行为数据,共计6列字段,列字段分别是: user_id:用户身份,脱敏 item_id:商品ID,脱敏 behavior_type:用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1、2、3、4表示) user_geohash:地理位置 item_categ.

2021-08-01 17:14:43 466

原创 Impala SQL解决动态分区 过多小文件问题

在执行的SQL前加上:set NUM_NODES=1;如下:set NUM_NODES=1;refresh ods.ods_sensors_share_event_text;insert overwrite dwd.dwd_sensors_share_event partition(`date`)selectshare_type,url,share_user_id,share_result,site_resource,is_employee,replace(regexp_extract(

2021-07-30 11:30:45 884

原创 SQL 的 WITH ROLLUP 用法

MySQL中有个 with rollup 语法,用法是跟在group by 字段之后 ,可以在分组字段的基础上做一个汇总统计。例如以下SQL:就是在company的基础上又做了一个汇总,这个对于数据分析很有帮助。

2021-07-29 19:20:02 6321

转载 【SQL】用户中两人一定认识的组合数

设表名:table0现有城市网吧访问数据,字段:网吧id,访客id(身份证号),上线时间,下线时间:规则1、如果有两个用户在一家网吧的前后上下线时间在10分钟以内,则两人可能认识规则2、如果这两个用户在三家以上网吧出现【规则1】的情况,则两人一定认识需求:该城市上网用户中两人一定认识的组合数。表如下:...

2021-07-29 14:58:53 257

原创 计算相互关注类型的SQL

计算相互关注类型的SQL,这是前一段时间某公司的面试题,有多种思路,我这里简单实现两种:gift表: 代表着`uid`给`to_uid` 送了礼物follow表:代表`uid`关注了`to_uid`

2021-07-26 20:58:45 825

hadoop-2.7.2.zip

http://archive.apache.org/dist/hadoop/core/hadoop-2.7.2/ 从官网上直接下载的,下载比较慢。所以这里分享一下 所需积分我设置的是0,如果CSDN官方不修改我设置的积分,也就是说免费下载的

2020-09-16

pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar

pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar jar包,官网下载的 手动编译Atlas的时候用到的

2020-08-19

sqoop-1.4.6.2.3.99.0-195.jar..zip

编译Atlas用 sqoop-1.4.6.2.3.99.0-195.jar 内含安装jar包以及maven手动安装命令 详情可参考我的博客: https://blog.csdn.net/qq_26502245/article/details/108008070

2020-08-14

javax.jms-1.1.jar.7z

内含javax.jms-1.1.jar 安装包下载以及Maven手动安装命令 Maven官方仓库下载不下来资源,只能手动安装 javax.jms jms 1.1

2020-08-14

十大数据分析模型详解_白皮书.pdf

基于多维事件模型,会形成一些常见的数据分析方法,在用户行为分析领域,对这些数分析方法的科学婴童进行理论指导,能够相对的完整的解释用户行为的内在规律,基于此帮助企业实现多维的交叉分析,让企业建立快速反应,适应变化的敏捷商业智能决策。

2020-06-24

mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi

mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi mongodb windows 版本,官网下载的

2020-06-05

Apache Flink结合Apache Kafka实现端到端的一致性语义.pdf

流计算中的一致性语义定义,以及通常系统怎么支持一致性语义,Flink+Fafka如何实现端到端的一致性语义。Flink会定期地产生checkpoint并且把这些checkpoint写入到一个持久化存储上,比如S3或HDFS。这个写入过程是异步的,这就意味着Flink即使在checkpointing过程中也是不断处理输入数据的。

2019-05-16

HDFS智能异构存储方案.pdf

HDFS异构存储,该方案能够智能的区分冷热数据,并按照配置的磁盘模式自动转移数据,做到冷热数据异构智能存储

2019-05-16

Scala编程核心教程(电子版)

学习Scala的全部资料,从最基本的数据结构,到最后高阶函数

2019-03-09

数据仓库数据分层结构

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。 数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

2019-03-02

HBase权威指南

HBase还可以利用Zookeeper确保只有一个主服务在运行(HBaseMaster),存储用于发现region的引导位置,作为一个region服务器的注册表,以及实现其他目的。Zookeeper是一个关键组成部分,没有它HBase就无法运作。Zookeeper使用分布式的一系列服务器和Zap协议(确保其状态保存一致)减轻了应用上的负担。         master服务器负责跨region服务器的全局region的负载均衡,将繁忙的服务器中的region移动到负载较轻的服务器中。主服务器(HBaseMaster)不是实际数据存储或者检索路径的组成部分,它仅提供了负载均衡和集群管理,不为region服务器或者客户端提供任何的数据服务,因此是轻量级服务器。此外,主服务器还提供了元数据的管理操作,例如,建表和创建列族(column family)。         region服务器负责为它们的服务的region提供读和写请求,也提供了拆分超过配置大小的region的接口。客户端则直接与region服务器通信,处理所有数据相关的操作。   "数十亿行 X 数百万列 X 数千个版本 = TB级 或 PB级的存储"

2019-03-02

Hadoop权威指南(中文版)

Hadoop编程书籍,由浅入深,介绍Hadoop编程,特别适合初学者以及企业开发人员以及大学生以及其他深造学习者

2019-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除