![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
墨者大数据
这个作者很懒,什么都没留下…
展开
-
Flink中CEP使用within时出现的问题(多条数据输入时没有数据输出的原因解释)
CEP中watermark应用实例原创 2022-09-06 18:09:51 · 1235 阅读 · 0 评论 -
Centos7.x下安装mysql8遇到的问题Couldn‘t open file /etc/pki/rpm-gpg/RPM-GPG-KEY-mysql-2022
在线安装mysql8遇到的问题原创 2022-06-07 10:58:39 · 1100 阅读 · 2 评论 -
flink设置checkpoint部署后一直重启,出现检查点无法写入的问题
问题描述项目一共有7个应用程序,只有其中一个程序出现检查点问题,参数配置都相同。flink部署后的异常为:org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold最终发现这个提示是没有用的,最后经过一番艰苦的努力,终于解决了问题,这里直接上干货。问题原因:由于这个程序连接的数据库比较多,可能会出现这个检查点没有做完,被丢弃掉,又重新开始了一个,循环往复。导致的问题.原创 2022-04-07 13:59:45 · 3454 阅读 · 0 评论 -
DataGrip连接不上CDH中的hive,原因分析
安装好CDH之后,想使用DataGrip连接集群的hive,但是试了好多种方法都连接不上。最后才发现时jar的问题。在如下目录中查询jar包:/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/jars使用如图的jar,就可以连接hive。连接之后就可以愉快的写sql了……下面附上比较详细的文档:https://blog.csdn.net/bing0008/article/details/121769303...原创 2022-02-11 17:40:17 · 1978 阅读 · 0 评论 -
MySQL8.X误删除root@localhost的修复操作
浪费了整整一下午时间,才解决------------->出现的结果:mysql无法登录,试了多种方法都无法修改配置文件#1.mysql所在的主机vim /etc/my.cnf#在[mysqld]中添加如下配置skip-grant-tables2.重新启动systemctl restart mysqld.serviceuse mysql;3.添加用户insert into user(User,authentication_string,ssl_cipher,x509_is原创 2022-01-27 16:01:34 · 2459 阅读 · 2 评论 -
Linux和windows查询进程号号关闭进程操作
废话不说……1.首先 传统的使用 ps -ef | grep 8082 查询,只能查询是否在运行,无法 kill -9 …2. linux终端:2.1 查看进程netstat -tln #查看所有占用端口的使用情况netstat -tln | grep 8082 # 查看8082端口的使用情况2.2 查看被那个进程占用lsof -i :80822.3 关闭进程kill -9 进程IDWindows平台3.1 查看 进程号netstat -ano # 显示所有被占用的端口原创 2022-01-20 17:36:13 · 761 阅读 · 0 评论 -
Centos7.x的yum源出现:failure: repodata/repomd.xml from flink-on-cdh: [Errno 256] No more mirrors to try
使用yum的什么命令都是报错,报错如下:如果出现上述的问题,可以在 /etc/yum.repos.d/ 目录是否存在或者目录中的文件是否存在,如果不存在,可以将其他主机的文件拷贝过去。这样即可解决问题,测试有效!!!...原创 2022-01-13 15:46:29 · 1385 阅读 · 0 评论 -
Kylin在创建Cube时出现 unkown queue:default(找不到默认队列)
为了在运行任务时取得资源隔离的作用,设置了不同的队列,这里我的集群为例,队列有:hive 、spark 、flink。环境:CDH集群,kylin采用tar包安装集成,需要手动启动。kylin默认的队列是default;查看日志报错如下解决方法:上面的问题时由于kylin中的默认队列是:default, 需要修改为yarn中的队列(本集群的yarn队列有hive, spark, flink)这里采用将kylin默认的yarn队列设置为hive, 需要在kylin的配置文件中添加配置,原创 2022-01-11 17:06:58 · 867 阅读 · 0 评论 -
在window上安装Kerberos客户端遇到的问题
1.客户端下载软件http://web.mit.edu/kerberos/dist/2.记住在安装目录中寻找programData目录下的Kerberos5/krbt.cnf,不是在program files/MIT/kerberos/目录,这个很重要,否则会出现“cannot find default realm”的错误。原创 2022-01-05 16:42:53 · 499 阅读 · 0 评论 -
HUE的警告:必须在 HBase 服务中配置 Thrift Server 角色以使用 Hue HBase Browser 应用程序。
警告:必须在 HBase 服务中配置 Thrift Server 角色以使用 Hue HBase Browser 应用程序。步骤:1.添加角色实例2. 为Hbase Thrift Server选择主机3.在HUE中选择HBase Thrift Server属性中选择服务器以使用Hue HBase Browser应用程序在界面上勾选即可。...原创 2022-01-04 14:53:50 · 1628 阅读 · 0 评论 -
HUE运行任务时出现“Unkown queue: deafult“,也就是找不到默认队列, 详解
1.删除默认的default队列后,新增spark,hive队列,需要修改不少地方,一个yarn,一个hivehive-site.xml,修改那些参数,我这里不做赘述,如果有需要可以留言我……上菜啦,上图是hue运行任务是出现错误.解决方法如下:再次运行 ,就没有问题了!...原创 2021-12-30 15:47:07 · 1525 阅读 · 0 评论 -
CDH内存挑拨过度验证阈值(Memory Overcommit Validation Threshold)的解决方法
1.在集群页面上存在一个"红色的扳手"首先,咱们先了解一下内存调拨过度是什么?阈值默认为0.8,假如,总内存如果为16G, 0.8*16=3.2,基本可以了,但是如果总内存为256,预留20%操作系统内存(51.2G)有点太多了。需要修改他的阈值。操作如下图:搜索 “Memory Overcommit”,我的主机内存为64G,留给系统的内存为:49 * 0.2 = 5G,够用了!!!java的堆内存大小可以自行查询!...原创 2021-12-28 13:43:14 · 2464 阅读 · 0 评论 -
CDH中出现Permission denied: user=root, access=WRITE, inode=“/user“:hdfs:supergroup:drwxr-xr-x
1.CDH安完成之后,使用"hive"命令进入hive的操作页面,创建表之后,插入数据报错,原因:由于权限问题Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x问题解决方法有多种,但是现在使用的时CDH,所以要使用CDH的方式解决问题。从报错的数据得知,是由于没有访问hdfs的权限导致的。打开HDFS中的配置选项...原创 2021-12-27 16:54:32 · 1780 阅读 · 0 评论 -
大数据仓储怎么实现高并发的框架选择,以及高并发的含义。。。。
在构建大数据架构时领导要求实现数仓数据的高并发查询,impala支持的并发数量为99。需要搭建一个高并发的查询架构,实现数据的实时查询。经过我的调研,发现采用Kylin+hadoop可以实现实时查询和高并发。大家可以试试看……附上并发的解释:[添加链接描述](https://www.cnblogs.com/xiaowenshu/p/10727523.html)...原创 2021-12-14 13:13:29 · 1446 阅读 · 0 评论 -
一篇文章熟悉flink中的checkpoint……
文章地址:https://blog.csdn.net/qq_43081842/article/details/112161557原创 2021-10-23 16:53:03 · 101 阅读 · 0 评论 -
sql中的group by和聚合函数哪些不得不说的事……
啥也不说了,先上代码:--数据装载insert overwrite ads_sku_infoselect '2020-06-14' dt, source, target, count(*)from( select concat('step-', step, ':', source) source, concat('step-', step+1,':', target) target from (原创 2021-09-16 16:49:12 · 266 阅读 · 0 评论 -
hive中的order by的用法及坑的所在
order by 后面是默认的是上无边界到当前行,但是如果有的行数的值相同,则会出现错误,今天就提醒一下:explode(partition by .. order by.. ),order by 后面最好跟上范围,这样就不会出现上述问题。原创 2021-09-13 17:00:22 · 1064 阅读 · 0 评论 -
SparkSQL之UDAF函数的定义以及实战应用案例!!!
sparkSql内置的函数有时可能无法满足需求,需要自定义函数,在sparkSql中有两种udf和udaf下面是一个关于UDAF的实战案例:数据:创建user.json文件,将如下内容放入。{"age":20,"name":"qiaofeng"}{"age":19,"name":"xuzhu"}{"age":18,"name":"duanyu"}import org.apache.spark.SparkConfimport org.apache.spark.sql.expressions.原创 2021-08-30 20:41:00 · 582 阅读 · 0 评论 -
kafka启动时出现java.net.NoRouteToHostException: 没有到主机的路由
刚开始启动kafka时有警告,没有在意,但是在使用kafkaManager创建的页面操作时出现少了一台机器。创建生产者和消费者时出现了错误。最后发现有问题。1.kafka安装好之后,在安装kafkaManager管理包,这个可以使用页面操作kafka2.再次需要启动的进程有namenode, datanode,yarn,zookeeper 历史服务器,kafkakafka依赖zookeeper,所以zookeeper先启动。3.执行 ./bin/kafka-manager启动kafka客户端,原创 2021-05-10 23:51:50 · 2983 阅读 · 0 评论 -
启动hbase不成功的原因(接上篇文章)
hbase启动之前需要启动1.hdfs start-dfs.sh2.zookeeper zkServer.sh start3.hbase需要启动两个进程 1)master 2)regionserver 先启动master 在hbase的安装下的bin下: ./hbase-daemon.sh start master 再启动regionserver ./hbase-daemon.sh start regionserver4.通过web页面进行查看 hadoop102:16010原创 2021-04-24 15:30:48 · 2122 阅读 · 0 评论 -
hbase中启动master后,自动关闭的原因详解
在启动hbase时出现的问题:regionserver一直在运行,而master启动之后,过一会自动停止。可能的原因:虚拟机的时间不同步防火墙没有关闭hdfs的接口不对hbase中的hbase-site.xml文件中的属性值(hbase.rootdir)主机端口不一致第一个,第二问题,可以自行解决,这里只说明第三个和第四个问题hbase中的hbase-site.xml文件内容<configuration> <!-- 这里的rootdir的value值要和hdfs中原创 2021-04-24 15:24:25 · 7657 阅读 · 2 评论