大数据开发摸爬滚打系列
文章平均质量分 63
此专栏包含大数据相关的各种开源组件的原理、设计思想、使用场景。以及在架构搭建、开发使用中碰到的实际问题的解决方法,还有大数据前言架构、技术组件的探索案例。
橙子园
落地生根,长成参天大树
展开
-
报错:Internal error XFS_WANT_CORRUPTED_GOTO at line 1635 of file fs/xfs/libxfs/xfs_alloc.c.
下面为解决问题中报的错误:Internal error XFS_WANT_CORRUPTED_GOTO at line 1635 of file fs/xfs/libxfs/xfs_alloc.c. Caller xfs_free_extentInternal error xfs_trans_cancel at line 990 of flie fs/xfs/xfs_trans.c.xfs_repair: /dev/mapper/cl-root contains a mounted filesystem原创 2022-06-30 11:31:24 · 4742 阅读 · 6 评论 -
报错FileSystemException: /datas/nodes/0/indices/gtTXk-hnTgKhAcm-8n60Jw/1/index/.es_temp_file:结构需要清理
首先我碰到的问题是服务器突然断电导致elasticsearch宕机,当我再次启动的时候到对应的目录中查看,ls查看文件时报所以判断肯定是由于断电导致分区数据损毁,丢失了文件的信息。所以需要修复分区,并重新挂载到目录上。查看磁盘挂载可看到文件所在的目录挂载的分区是/dev/sdc,这就是我们需要修复的。先将已经挂载好的分区卸载下来然后修复修复好以后重启服务器、或者重新挂载,当然要看你挂载的分区持久化写入/etc/fstab中,如果写了,则重启服务器就会重新将分区挂载到目录下。重启命令根据上述操作,我原创 2022-06-29 10:04:47 · 1379 阅读 · 14 评论 -
【大数据】Hive可视化工具dbeaver
Hive可视化工具dbeaver1、dbeaver基本介绍dbeaver是一个图形化的界面工具,专门用于与各种数据库的集成,通过dbeaver我们可以与各种数据库进行集成通过图形化界面的方式来操作我们的数据库与数据库表,类似于我们的sqlyog或者navicat。2、下载dbeaver我们可以直接从github上面或者官网下载我们需要的对应的安装包即可https://github.com/dbeaver/dbeaver/releaseshttps://dbeaver.io/download/3原创 2022-02-05 12:15:49 · 20269 阅读 · 4 评论 -
【大数据】关于hive中删除操作及HDFS回收站管理腾出空间的实操
一、删除删除hive数据时,首先明确你使用删除数据还是连同表结构也要删除,如果只是要删除数据可以选择truncate来清空表中的数据,如果要对表进行删除,首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用,如果不需要使用了可以直接使用HDFS命令对目录进行删除。查询内、外部表有两个方法:方法一:hive shell中执行describe extended tablename; 查看表的详细信息,外部表 tableType 字段会显示 EXTERNAL_TABLE,内部表 t原创 2022-02-17 10:11:38 · 6625 阅读 · 0 评论 -
【大数据】hive将表中数据分组、然后将每行数据的两个字段拼接成json字符串,放到array里
将表中数据分组、然后将每行数据的两个字段拼接成json字符串,放到array里原创 2021-09-13 17:35:24 · 1815 阅读 · 0 评论 -
hive判断空字符串数组和空数组
hive空字符串数组和空数组空字符串数组 :array(’’)空数组:array()如果想查找表中的空字符串数组:方法:可以使用查找数组中的第一个值是否为空字符串select classify from table where classify[0]='';想查找表中空数组:方法:使用size判断数据大小是否为0select classify from table where size(classify)=0;......原创 2021-12-24 18:37:08 · 5621 阅读 · 1 评论 -
【大数据】hive使用split函数注意事项(此处可能有坑,初学者容易出错)
注意:我们经常会使用split对字符串做切分,但要注意一点,当原来的值为空值时,容易产生大小为1的空字符串数组[""],在我们查询时,它和空数组[]输出来是很相似的,但它的大小却是1,如果我们再根据array的size判断做一下操作时,很可能出现意想不到的错误。例如:one_cate_name工程科技哲学与人文科学;医药卫生科技社会科学ISELECT split(one_cate_name, ";") as split_name, size(split(one_原创 2022-01-14 14:53:40 · 2787 阅读 · 0 评论 -
【大数据】Hive主流文件存储格式对比
Hive 主流文件存储格式对比1、存储文件的压缩比测试1.1 测试数据https://github.com/liufengji/Compression_Format_Datalog.txt 大小为18.1 M1.2 TextFile创建表,存储数据格式为TextFilecreate table log_text (track_time string,url string,session_id string,referer string,ip string,end_user_原创 2022-01-18 15:51:36 · 1615 阅读 · 7 评论 -
kafka常用维护查看shell命令(创建topic、查看、删除、生产者、消费者、消费者组offset)
1.kafka维护的一些命令:1.1创建topickafka-topics.sh --create --partitions 1 --replication-factor 2 --topic test --zookeeper companynode02:2181,companynode03:2181,companynode04:21811.2查询所有topickafka-topics.sh --list --zookeeper companynode02:2181,companynode03:21原创 2021-03-05 15:53:15 · 2520 阅读 · 0 评论 -
报错:Cannot set the value of read-only property ‘additionalSourceDirs‘ for task ‘:jacocoRootReport‘ of
完整报错:Build file ‘F:\mycode\kafka-0.10.1.0-src\build.gradle’ line: 297A problem occurred evaluating root project ‘kafka-0.10.1.0-src’.Cannot set the value of read-only property ‘additionalSourceDirs’ for task ‘:jacocoRootReport’ of type org.gradle.testi原创 2022-04-28 11:35:52 · 2018 阅读 · 6 评论 -
flink问题集锦
报错一:Could not get job jar and dependencies from JAR file: JAR file does not exist: -yn原因:flink1.8版本之后已弃用该参数,ResourceManager将自动启动所需的尽可能多的容器,以满足作业请求的并行性。解决方法:去掉即可报错二:java.lang.IllegalStateException: No Executor found. Please make sure to export the HA原创 2022-03-18 18:27:27 · 4003 阅读 · 0 评论 -
【大数据】flink保证Exactly_Once的理解
满足三点,可以保证端到端的Exactly_Once1.开启checkpoint2.source支持数据重发3.sink端幂等性写入、事务性写入。我们常使用事务性写入sink 事务性写入分为两种方式1、WAL(预写日志的方式):先将数据当作状态保存,当收到checkpoint完成通知后,一次性sink到下游系统2、2pc(两阶段提交):大致的实现的过程就是:* 开始事务(beginTransaction)创建一个临时文件夹,来写把数据写入到这个文件夹里面。* 预提交(preCommit)将内存原创 2022-04-03 11:39:20 · 3969 阅读 · 13 评论 -
【大数据】带你理解flink的state概念
文章目录一、概述1、简介2、 State backend2.1、MemoryStateBackend2.2、FsStatebackend:2.3、 RocksDBStateBackend二、state的类型1、原生状态(raw state)2、托管状态(managed state)3、两种形式3.1 Operator State(算子状态)3.2 keyed State(键控状态)3.2.1、ValueState3.2.2、ListState3.2.3、MapState3.2.4、ReducingState原创 2022-04-12 11:30:06 · 1255 阅读 · 27 评论 -
【大数据】带你理解并使用flink中的Time、Window(窗口)、Windows Function(窗口函数)
这篇文章带你理清大数据开发中flink中time、window使用概念、实战的内容,欢迎大家品读,同时示例代码也是基于最新的flink1.13开发。原创 2022-04-14 09:49:26 · 3679 阅读 · 33 评论 -
flink-sql入es报错:Missing required options are document-type
我是在flink-sql创建es表的时候报的错,报错提示缺少对应的options,及document-type,我连忙去flink官方文档查找答案:https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/connectors/table/elasticsearch/#document-type从官方文档给出的连接参数可以看出document-type在es6中需要指定,而在es7中无需指定,原因大概是6.0版本及以前一个索引里可以创建原创 2022-06-02 18:23:40 · 1851 阅读 · 7 评论 -
报错:Could not find a suitable table factory for ‘org.apache.flink.table.factories.TableSourceFactory
重要错误提示:这是在提交yarn时报的错误,原因其实就是少了一些包,提交的集群后一些依赖包使用flink的lib目录下的,所以我需要将一些依赖包放到lib目录下。我们看到缺少的是org.apache.flink.table.factories.TableSourceFactory类,所以对应的应该是flink连接JDBC的包。这里我们去官网上下载你对应flink版本的连接JDBC的包,如下图:放到提交集群的客户机部署的flink的lib目录下。可以看到上面最主要的是缺少依赖包,其实像很多类似的错误都是由于原创 2022-06-08 18:01:54 · 4750 阅读 · 6 评论 -
flink报错踩坑:org.apache.flink.table.catalog.hive.client.HiveShimV100.registerTemporaryFunction
当想使用本地开发环境运行flink读写线上hive数据来运行时报错。我使用maven管理的开发环境依赖。由于代码发布到测试环境集群上跑时并没有报错,而测试环境对应的依赖都是使用放在上面的依赖jar的,并不使用本地maven管理的依赖(也就是没有打入项目jar)。所以我猜测是本地运行环境依赖有问题,也就是项目中maven的pom文件的依赖有问题。在多次检查该项目中maven的pom文件导入的依赖和反复查看flink Table API Connector针对hive的官方文档后终于解决了问题。下面是我处理问题原创 2022-06-11 15:34:55 · 2477 阅读 · 11 评论 -
【大数据】带你理解并使用flink中的WaterMark机制
flink 中watermark的window的使用、原理、易错点,新旧api的使用全部内容原创 2022-04-19 15:17:21 · 2503 阅读 · 40 评论