自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

炼数成器

炼数成器

  • 博客(62)
  • 资源 (1)
  • 收藏
  • 关注

原创 OrientDB使用教程:全面了解图数据库

OrientDB 是一种多模型数据库系统,支持图形(Graph)、文档(Document)、键值(Key-Value)和对象(Object)数据模型。它是一个开源的、高性能的、可扩展的、支持 ACID 事务的 NoSQL 数据库。OrientDB 在一个单一的引擎中融合了关系型数据库和图数据库的特性,使得它适用于各种不同类型的应用场景。

2023-12-29 23:00:00 1391

原创 kerberos GSS initiate failed认证失败的原因及解决方案

这就导致同一任务可能会并发执行kinit操作,而 kerberos Ticket Cache文件存储在/tmp目录下,文件名为krb5cc_{uid},其中uid为用户标识号。因为同一OS用户下的多个脚本共享相同的uid,由于并发kinit操作,不同的认证可能会覆盖同一个uid下的Ticket Cache文件,导致Kerberos认证信息串掉。环境变量为每个Kerberos用户指定独立的Ticket Cache文件,解决并发执行脚本时Ticket Cache文件被覆盖的问题。通过在Shell脚本中设置。

2023-12-29 22:15:00 1140

原创 sqlplus set参数大区

打开SERVEROUTPUT功能,并执行一个包含PL/SQL块的代码。在执行时,将显示PL/SQL块中的输出信息。设置每行的最大字符数为100,每页的行数为20,并执行一个查询语句。查询结果将根据设置的行数进行分页显示。打开VERIFY功能,并执行一个带有替换变量的查询语句。在执行时,将显示替换变量的实际值,方便调试和验证。打开AUTOTRACE功能,并执行一个查询语句。在输出结果中,将显示SQL语句的执行计划和统计信息。[info]本文发自csdn,未经许可禁止复制转载到其他网站。

2023-11-10 22:45:00 746

原创 记一次fineBI的增量删除更新BUG

修改表的字段配置后,一定要注意表是否配置了增量删除更新,否则需要修改增量逻辑;如果只是增量更新没有删除,或者全量更新,不用修改设置。官方文档链接是https://help.fanruan.com/finebi/doc-view-1663.html。增量删除:这里也不能像官网描述那样使用select * ,必须指定字段集合。增量删除:按照表配置的字段集合来手动指明字段,而不是官网的描述那样;按照官方文档,增量删除不能使用select * ,且需要指定分区建。

2023-10-11 21:15:00 3497

翻译 StarRocks将其弹性许可证2.0重新授权给Apache许可证2.0

在Apache许可证2.0下,您可以在更多的场景中自由使用和开发StarRocks,包括基于StarRocks构建分析数据库托管服务。自从StarRocks在GitHub上发布我们的代码以来,仅仅一年多一点的时间,社区就有了巨大的增长。我们期待着StarRocks社区的不断发展,并希望您能加入我们,共同构建世界上最先进的分析数据库!为了更好地支持StarRocks项目的发展,发展社区,以便我们可以在不同的用例中解决更多的问题,我们决定切换许可证。

2023-09-27 00:00:00 269

原创 hutool 在scala 和java 的时间区别

DateUtil.offsetHour(DateUtil.beginOfDay(DateUtil.date()), -31) idea正确 但服务器错误。最近在使用spark翻译mybatis的java代码的过程中,将java代码直接翻译到scala中,但是在对数的过程中,发现设计日期比较的都存在误差,scala版中加上 toInstant.atZone(ZoneId.systemDefault()).toLocalDateTime)这个问题仅仅出现在获取时间戳的时候,获取其他格式的日期是正常的。

2023-09-26 23:30:00 116

原创 Linux环境下python连接Oracle教程

cx_Oracle是一个用于Python的第三方库,提供了与Oracle数据库进行交互的功能。可以在python中用cx_Oracle来连接Oracle数据库。或者 /etc/profile 等等。下面是一个批量执行上面安装命令的shell脚本。选择Oracle版本。下载3个rpm安装包。

2023-08-19 21:45:00 2049

原创 spark导入doris的几种方式

本文主要介绍通过spark导入doris的3种方式。

2023-08-11 22:30:00 2018

原创 集群部署dolphinscheduler踩坑

本文主要总结一下最新版dolphinscheduler3.1.5的安装过程中遇到的坑。

2023-07-31 23:45:00 2010

原创 doris导入报错问题集合

解决:只能在doris里设置全局或会话,目前无法支持在jdbc上设置,官方明确表示在1.2.5版本中将会支持connection timeout。2.0版本或许会支持query设置。由于enable_insert_strict的默认值是false,当前执行 INSERT 语句时,有不符合目标表格式的数据,比如字符串超过字段类型等等,导入任务会直接报错。只要有一条数据被正确导入,则返回成功。数据默认是单条写入,需要改成批量。

2023-07-07 22:45:00 3646

原创 Linux系统安装常见工具

"Development Tools"将安装一系列的软件包,包括gcc编译器、make构建工具、调试器、自动化工具等。这些工具对于编译和构建软件项目非常有用。“Nmap”(Network Mapper)是一个开源的网络扫描和安全评估工具。它用于探测和分析网络主机、端口状态和服务信息。sysstat"是一个系统性能监控工具集合,它提供了一组用于监视和分析系统资源使用情况的实用程序。“nano”,它是一个基本的文本编辑器,类似于其他常见的文本编辑器(如vim、emacs等)

2023-05-20 22:54:42 2656

原创 Hive矢量化

Hive 矢量化

2022-10-19 22:45:00 2727

原创 Hive Unknown rows affected

Hive Unknown rows affected

2022-09-05 22:45:00 1921

原创 Hive开启CTE物化

CTE(Common Table Expression)公共表表达式简称 CTE,处理方式类似于视图扩展,是Hive三种保存临时结果的方法之一(另外两种是临时表和物化视图), Hive早在 0.13.0 的时候便加入了这个功能。

2022-09-05 18:45:24 2860

原创 Hive 3种map join

3种map join

2022-09-02 18:08:02 2163

原创 hive 写入分区oom

1.内存优化列式存储的文件在写入文件之前都会将一定数量的数据缓存在内存中,由于hive每个动态分区目录都会打开一个文件写入器(file writer),所以当存在很多分区的时候,有可能会导致mapper OOM,所以需要增加内存。或者限制每次任务的分区数。另外缓冲区(file buffer)的大小最好跟block一样大,set Parquetbuffer size=blocksize2.开启hive.optimize.sort.dynamic.partition通过explain 发现 动态分区跟sq

2022-03-14 20:11:38 4388

原创 通过YARN Label实现大数据集群资源管理与隔离

1.Hive有哪些参数,如何查看这些参数 Hive自带的配置属性列表封装在HiveConfJava类中,因此请参阅该HiveConf.java文件以获取Hive版本中可用的配置属性的完整列表。具体可以下载hive.src通过eclipse查看。全部属性有上千个吧,一般Hive的自带属性都是以hive.开头的,每个属性且自带详细的描述信息,其次Hive官网也有,但是属性不是特别全。Hive官方参数网址Hive除了自身带了一些配置属性,因为其底层使用的是h...

2021-12-31 22:11:05 85

原创 HIVE 配置大全参考

HIVE 配置文件详解hive的配置:hive.aux.jars.path:当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录下,无默认值hive.partition.pruning:在编译器发现一个query语句中使用分区表然而未提供任何分区谓词做查询时,抛出一个错误从而保护分区表,默认是nonstrict(待读源码后细化,网上资料极少)- hive.map.aggr:map端聚合是否开启,默认开启hive.join.emit.interval:在发出join结果之前对join

2021-12-15 23:21:37 1731

原创 Hive数据倾斜

hive join 数据倾斜 解决办法

2021-11-24 17:34:45 2320 1

原创 hive on spark优化

spark配置参数spark.executor.cores表示每个Executor可利用的CPU核心数。其值不宜设定过大,因为Hive的底层以HDFS存储,而HDFS有时对高并发写入处理不太好,容易造成race condition。设定在3~6之间比较合理。spark.executor.memory/spark.yarn.executor.memoryOverhead这两个参数分别表示每个Executor可利用的堆内内存量和堆外内存量。堆内内存越大,Executor就能缓存更多的数据,在做诸如map

2021-11-20 13:50:40 2906

原创 spark设置日志级别的4种方式

建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关数据。 “数据仓库之父” W.H.Inmon 在《Building the Data Warehouse》一书中定义数据仓库是“一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合”。 面向主题:业务数据库中的数据主要针对事务处理...

2021-10-31 23:58:48 5806

原创 cdh制作flink1.13.2的parcel包

基础环境jdk1.8mavenpython2git使用parcel制作工具制作下载制作工具:git clone https://github.com/pkeropen/flink-parcel.git完成后会在当前目录生成一个flink-parcel的文件,证明下载成功修改配置文件cd flink-parcevim flink-parcel.properties修改内容:#FLINK 下载地址FLINK_URL=https://dlcdn.apache.org/flink/f

2021-09-22 13:25:42 2147

原创 windows edge 新建标签如何换成百度搜索

官方确认 新版的windows edge 设置里不支持修改新建标签页搜索引擎,只能设置搜索栏。我们可以借助其他工具来实现,比如csdn浏览器插件点击 https://plugin.csdn.net/,点击下载,选择edge,或者跳转到edge商店下载...

2021-09-08 16:57:39 13202 1

原创 hive mapjoin总结

1.map join无reduce操作,所以没有shuffle。这样可以减少大量的网络I/O。(如:大表文件数500、文件250M,小表20M。map join的网络I/O共50020M,Common join的网络I/O共500250M+20M),同时不需要进行map sort和shuffle sort排序。2.由于Common join的一个reduce包含两张表的数据,所以进行reduc...

2021-08-30 16:53:00 1530

原创 Spark Executor heartbeat timed out after...

原因:Executor 心跳超时解决办法:–conf spark.network.timeout=1300s–conf spark.executor.heartbeatInterval=1200s注意:network.timeout的值必须大于executor.heartbeatInterval的值

2021-08-14 00:18:39 2892

原创 spark java.lang.ClassCastException: java.lang.Double cannot be cast to java.lang.String

java.lang.ClassCastException: java.lang.Double cannot be cast to java.lang.Stringjava.lang.ClassCastException: java.lang.Double cannot be cast to java.lang.String at org.apache.spark.sql.Row$class.getString(Row.scala:255) at org.apache.spark.sql.catalys

2021-07-19 15:41:10 5143

原创 hive hue druid 中的夏令时

hivehive> SELECT unix_timestamp("2021-03-14 01:32:24"),unix_timestamp("2021-03-14 03:32:24"),(unix_timestamp("2021-03-14 01:32:24")-unix_timestamp("2021-03-14 03:32:24"))/3600;OK1615714344 1615717944 -1.0HueSELECT unix_timestamp("2021-03-14 01:32

2021-06-02 13:16:19 1603 1

原创 Druid分区方式比较

数据源中segments的分区和排序会对占用空间和性能产生重大影响。dynamic:摄入速度最快,根据段中的行数进行分区。hashed :摄入速度中等,基于分区dimension的哈希值进行分区,可以减少数据源大小和查询延迟。-single_dim:摄入速度最慢, 根据分区dimension的值进行范围分区,查询速度最快。...

2021-05-27 21:16:37 3131

原创 hive null parse

sqoop--null-string '' \--null-non-string '' \hivealter table ... set serdeproperties ('serialization.null.format' = "");orTBLPROPERTIES('serialization.null.format' = "") ;

2021-05-20 14:39:01 902

原创 flume:Unhandled error java.lang.NoSuchMethodError: org.apache.flume.Context.get

urationProvider.java:154)] Unhandled errorjava.lang.NoSuchMethodError: org.apache.flume.Context.getSubProperties(Ljava/lang/String;)Lcom/google/common/collect/ImmutableMap; at org.apache.flume.channel.ChannelProcessor.configureInterceptors(ChannelProcess

2021-05-13 19:06:01 1483

原创 新版azkaban4.0编译安装教程

由于官方没有提供安装包所以需要下载源码,按照本文安装可以完美运行解压wget https://github.com/azkaban/azkaban/archive/refs/tags/4.0.0.tar.gz tar -zxvf 4.0.0.tar.gz -C /data/software/cd azkaban-4.0.0 没有安装git和gradlew的话需要先安装 https://gradle.org/releases/yum -y updateyum -y install gi

2021-05-13 12:27:13 2308 4

原创 kafka eagle(EFAK)的介绍和保姆级安装教程

本文主要介绍Apache原版和CDH版Kafka安装kafka eagle的相关配置简介kafka eagle(kafka鹰) 是一款由国内公司开源的Kafka集群监控系统,可以用来监视kafka集群的broker状态、Topic信息、IO、内存、consumer线程、偏移量等信息,并进行可视化图表展示。独特的KQL还可以通过SQL在线查询kafka中的数据。官网地址 https://www.kafka-eagle.org/github地址:https://github.com/smart.

2021-05-12 22:52:15 20552 9

原创 Druid的性能优化

druid

2021-05-07 18:35:05 2056 3

原创 Sqoop:SQLException in nextKeyValue

错误详情 Error: java.io.IOException: SQLExceptionin nextKeyValue at org.apache.sqoop.mapreduce.db.DBRecordReader....

2021-04-22 21:46:00 3916 1

原创 万字整理 最新主流大数据技术分类大全(持续更新)

目前绝大多数企业正在使用的技术,大部分都是基于Apache协议开源框架,因为有些框架有多种分类方式,而且篇幅有限,只做简要介绍,仅供参考调研(截止今年目前已总结80多个),本文大约7000字,阅读需完要20分钟。

2021-03-22 10:17:00 5989

原创 Clickhouse 21.3.3 安装部署

示例版本21.3.3 环境检查 grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not support...

2021-03-20 14:57:00 1664

原创 Spark-SQL的使用

spark-sql CLI Spark SQL CLI是一种方便的工具,可以在本地模式下运行Hive Metastore服务并执行从命令行输入的查询。 conf/目录中必须包含hive-site.xml,core-sit...

2021-03-20 11:19:00 1431

原创 Linux shell不同时区时间转换(时区 夏令时 时间戳)

步骤 将目标日期转换为时间戳将时间戳用新的时区转换回时间 times=$(TZ=Asia/Shanghai date -d @`date +%s` "+%Y-%m-%d %H:%M:%S")echo $times ...

2021-03-19 12:30:00 2821

原创 sqoop 导出MySQL到hdfs后顺序异常改变

最近发现了sqoop的一个bug,在使用sqoop 1.4 7导出MySQL8.0以上版本的mysql表,采用整表导出时,列的顺序会发生颠倒、变化。 比如MySQL里是id,name。sqoop导出顺序的是name,id,...

2021-03-17 17:10:00 1138

原创 the result type of an implicit conversion must be more specific than Object

maven编译报错error: the result type of an implicit conversion must be more specific than Object [ERROR] props.put(“...

2021-02-08 14:14:00 2982 2

Azkaban4.0.zip

最新官方源码编译后的安装包文件,直接下载完美安装运行

2021-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除