炼数成器-CSDN博客

原创 Docker命令大全

从容器中复制文件/文件夹到本地文件系统，或从本地文件系统复制到容器。从 Dockerfile 构建一个新的镜像。导出容器的文件系统为一个 tar 包。搜索 Docker Hub 中的镜像。查看 Docker 对象的详细信息。显示 Docker 系统的详细信息。恢复一个被暂停的容器中的所有进程。从 Docker 仓库下载镜像。将一个镜像保存为 tar 包。从 tar 包中加载一个镜像。启动一个或多个已停止的容器。创建一个新的容器但不启动它。显示容器的资源使用统计信息。暂停一个容器中的所有进程。

2024-05-29 21:15:00 1466 2

原创 OrientDB使用教程：全面了解图数据库

OrientDB 是一种多模型数据库系统，支持图形（Graph）、文档（Document）、键值（Key-Value）和对象（Object）数据模型。它是一个开源的、高性能的、可扩展的、支持 ACID 事务的 NoSQL 数据库。OrientDB 在一个单一的引擎中融合了关系型数据库和图数据库的特性，使得它适用于各种不同类型的应用场景。

2023-12-29 23:00:00 3799

原创 kerberos GSS initiate failed认证失败的原因及解决方案

这就导致同一任务可能会并发执行kinit操作，而 kerberos Ticket Cache文件存储在/tmp目录下，文件名为krb5cc_{uid}，其中uid为用户标识号。因为同一OS用户下的多个脚本共享相同的uid，由于并发kinit操作，不同的认证可能会覆盖同一个uid下的Ticket Cache文件，导致Kerberos认证信息串掉。环境变量为每个Kerberos用户指定独立的Ticket Cache文件，解决并发执行脚本时Ticket Cache文件被覆盖的问题。通过在Shell脚本中设置。

2023-12-29 22:15:00 5420

原创 sqlplus set参数大区

打开SERVEROUTPUT功能，并执行一个包含PL/SQL块的代码。在执行时，将显示PL/SQL块中的输出信息。设置每行的最大字符数为100，每页的行数为20，并执行一个查询语句。查询结果将根据设置的行数进行分页显示。打开VERIFY功能，并执行一个带有替换变量的查询语句。在执行时，将显示替换变量的实际值，方便调试和验证。打开AUTOTRACE功能，并执行一个查询语句。在输出结果中，将显示SQL语句的执行计划和统计信息。[info]本文发自csdn，未经许可禁止复制转载到其他网站。

2023-11-10 22:45:00 1072

原创记一次fineBI的增量删除更新BUG

修改表的字段配置后，一定要注意表是否配置了增量删除更新，否则需要修改增量逻辑；如果只是增量更新没有删除，或者全量更新，不用修改设置。官方文档链接是https://help.fanruan.com/finebi/doc-view-1663.html。增量删除：这里也不能像官网描述那样使用select * ，必须指定字段集合。增量删除：按照表配置的字段集合来手动指明字段，而不是官网的描述那样；按照官方文档，增量删除不能使用select * ，且需要指定分区建。

2023-10-11 21:15:00 4124

翻译 StarRocks将其弹性许可证2.0重新授权给Apache许可证2.0

在Apache许可证2.0下，您可以在更多的场景中自由使用和开发StarRocks，包括基于StarRocks构建分析数据库托管服务。自从StarRocks在GitHub上发布我们的代码以来，仅仅一年多一点的时间，社区就有了巨大的增长。我们期待着StarRocks社区的不断发展，并希望您能加入我们，共同构建世界上最先进的分析数据库!为了更好地支持StarRocks项目的发展，发展社区，以便我们可以在不同的用例中解决更多的问题，我们决定切换许可证。

2023-09-27 00:00:00 689

原创 hutool 在scala 和java 的时间区别

DateUtil.offsetHour(DateUtil.beginOfDay(DateUtil.date()), -31) idea正确但服务器错误。最近在使用spark翻译mybatis的java代码的过程中，将java代码直接翻译到scala中，但是在对数的过程中，发现设计日期比较的都存在误差，scala版中加上 toInstant.atZone(ZoneId.systemDefault()).toLocalDateTime)这个问题仅仅出现在获取时间戳的时候，获取其他格式的日期是正常的。

2023-09-26 23:30:00 212

原创 Linux环境下python连接Oracle教程

cx_Oracle是一个用于Python的第三方库，提供了与Oracle数据库进行交互的功能。可以在python中用cx_Oracle来连接Oracle数据库。或者 /etc/profile 等等。下面是一个批量执行上面安装命令的shell脚本。选择Oracle版本。下载3个rpm安装包。

2023-08-19 21:45:00 2683

原创 spark导入doris的几种方式

本文主要介绍通过spark导入doris的3种方式。

2023-08-11 22:30:00 3230

原创集群部署dolphinscheduler踩坑

本文主要总结一下最新版dolphinscheduler3.1.5的安装过程中遇到的坑。

2023-07-31 23:45:00 3201

原创 doris导入报错问题集合

解决：只能在doris里设置全局或会话，目前无法支持在jdbc上设置，官方明确表示在1.2.5版本中将会支持connection timeout。2.0版本或许会支持query设置。由于enable_insert_strict的默认值是false，当前执行 INSERT 语句时，有不符合目标表格式的数据，比如字符串超过字段类型等等，导入任务会直接报错。只要有一条数据被正确导入，则返回成功。数据默认是单条写入，需要改成批量。

2023-07-07 22:45:00 5667

原创 Linux系统安装常见工具

"Development Tools"将安装一系列的软件包，包括gcc编译器、make构建工具、调试器、自动化工具等。这些工具对于编译和构建软件项目非常有用。“Nmap”（Network Mapper）是一个开源的网络扫描和安全评估工具。它用于探测和分析网络主机、端口状态和服务信息。sysstat"是一个系统性能监控工具集合，它提供了一组用于监视和分析系统资源使用情况的实用程序。“nano”，它是一个基本的文本编辑器，类似于其他常见的文本编辑器（如vim、emacs等）

2023-05-20 22:54:42 3036

原创 Hive矢量化

Hive 矢量化

2022-10-19 22:45:00 2973

原创 Hive Unknown rows affected

Hive Unknown rows affected

2022-09-05 22:45:00 2066

原创 Hive开启CTE物化

CTE(Common Table Expression)公共表表达式简称 CTE，处理方式类似于视图扩展，是Hive三种保存临时结果的方法之一（另外两种是临时表和物化视图）， Hive早在 0.13.0 的时候便加入了这个功能。

2022-09-05 18:45:24 3640

原创 Hive 3种map join

3种map join

2022-09-02 18:08:02 2447

原创 hive 写入分区oom

1.内存优化列式存储的文件在写入文件之前都会将一定数量的数据缓存在内存中，由于hive每个动态分区目录都会打开一个文件写入器（file writer），所以当存在很多分区的时候，有可能会导致mapper OOM，所以需要增加内存。或者限制每次任务的分区数。另外缓冲区（file buffer）的大小最好跟block一样大，set Parquetbuffer size=blocksize2.开启hive.optimize.sort.dynamic.partition通过explain 发现动态分区跟sq

2022-03-14 20:11:38 4689

原创通过YARN Label实现大数据集群资源管理与隔离

1.Hive有哪些参数，如何查看这些参数 Hive自带的配置属性列表封装在HiveConfJava类中，因此请参阅该HiveConf.java文件以获取Hive版本中可用的配置属性的完整列表。具体可以下载hive.src通过eclipse查看。全部属性有上千个吧，一般Hive的自带属性都是以hive.开头的，每个属性且自带详细的描述信息，其次Hive官网也有，但是属性不是特别全。Hive官方参数网址Hive除了自身带了一些配置属性，因为其底层使用的是h...

2021-12-31 22:11:05 306

原创 HIVE 配置大全参考

HIVE 配置文件详解hive的配置：hive.aux.jars.path：当用户自定义了UDF或者SerDe，这些插件的jar都要放到这个目录下，无默认值hive.partition.pruning：在编译器发现一个query语句中使用分区表然而未提供任何分区谓词做查询时，抛出一个错误从而保护分区表，默认是nonstrict（待读源码后细化，网上资料极少）- hive.map.aggr：map端聚合是否开启，默认开启hive.join.emit.interval：在发出join结果之前对join

2021-12-15 23:21:37 2178

原创 Hive数据倾斜

hive join 数据倾斜解决办法

2021-11-24 17:34:45 2505 1

原创 hive on spark优化

spark配置参数spark.executor.cores表示每个Executor可利用的CPU核心数。其值不宜设定过大，因为Hive的底层以HDFS存储，而HDFS有时对高并发写入处理不太好，容易造成race condition。设定在3~6之间比较合理。spark.executor.memory/spark.yarn.executor.memoryOverhead这两个参数分别表示每个Executor可利用的堆内内存量和堆外内存量。堆内内存越大，Executor就能缓存更多的数据，在做诸如map

2021-11-20 13:50:40 3158

原创 spark设置日志级别的4种方式

建立用户画像首先需要建立数据仓库，用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具，依赖于HDFS存储数据，提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库，存储标签和用户特征库等相关数据。 “数据仓库之父” W.H.Inmon 在《Building the Data Warehouse》一书中定义数据仓库是“一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合”。面向主题：业务数据库中的数据主要针对事务处理...

2021-10-31 23:58:48 6477

原创 cdh制作flink1.13.2的parcel包

基础环境jdk1.8mavenpython2git使用parcel制作工具制作下载制作工具：git clone https://github.com/pkeropen/flink-parcel.git完成后会在当前目录生成一个flink-parcel的文件，证明下载成功修改配置文件cd flink-parcevim flink-parcel.properties修改内容：#FLINK 下载地址FLINK_URL=https://dlcdn.apache.org/flink/f

2021-09-22 13:25:42 2249

原创 windows edge 新建标签如何换成百度搜索

官方确认新版的windows edge 设置里不支持修改新建标签页搜索引擎，只能设置搜索栏。我们可以借助其他工具来实现，比如csdn浏览器插件点击 https://plugin.csdn.net/，点击下载，选择edge，或者跳转到edge商店下载...

2021-09-08 16:57:39 14009 1

原创 hive mapjoin总结

1.map join无reduce操作，所以没有shuffle。这样可以减少大量的网络I/O。(如：大表文件数500、文件250M，小表20M。map join的网络I/O共50020M，Common join的网络I/O共500250M+20M)，同时不需要进行map sort和shuffle sort排序。2.由于Common join的一个reduce包含两张表的数据，所以进行reduc...

2021-08-30 16:53:00 1624

原创 Spark Executor heartbeat timed out after...

原因：Executor 心跳超时解决办法：–conf spark.network.timeout=1300s–conf spark.executor.heartbeatInterval=1200s注意：network.timeout的值必须大于executor.heartbeatInterval的值

2021-08-14 00:18:39 5947

原创 spark java.lang.ClassCastException: java.lang.Double cannot be cast to java.lang.String

java.lang.ClassCastException: java.lang.Double cannot be cast to java.lang.Stringjava.lang.ClassCastException: java.lang.Double cannot be cast to java.lang.String at org.apache.spark.sql.Row$class.getString(Row.scala:255) at org.apache.spark.sql.catalys

2021-07-19 15:41:10 5620

原创 hive hue druid 中的夏令时

hivehive> SELECT unix_timestamp("2021-03-14 01:32:24"),unix_timestamp("2021-03-14 03:32:24"),(unix_timestamp("2021-03-14 01:32:24")-unix_timestamp("2021-03-14 03:32:24"))/3600;OK1615714344 1615717944 -1.0HueSELECT unix_timestamp("2021-03-14 01:32

2021-06-02 13:16:19 1749 1

原创 Druid分区方式比较

数据源中segments的分区和排序会对占用空间和性能产生重大影响。dynamic：摄入速度最快，根据段中的行数进行分区。hashed ：摄入速度中等，基于分区dimension的哈希值进行分区，可以减少数据源大小和查询延迟。-single_dim：摄入速度最慢，根据分区dimension的值进行范围分区，查询速度最快。...

2021-05-27 21:16:37 3282

原创 hive null parse

sqoop--null-string '' \--null-non-string '' \hivealter table ... set serdeproperties ('serialization.null.format' = "");orTBLPROPERTIES('serialization.null.format' = "") ;

2021-05-20 14:39:01 969

原创 flume:Unhandled error java.lang.NoSuchMethodError: org.apache.flume.Context.get

urationProvider.java:154)] Unhandled errorjava.lang.NoSuchMethodError: org.apache.flume.Context.getSubProperties(Ljava/lang/String;)Lcom/google/common/collect/ImmutableMap; at org.apache.flume.channel.ChannelProcessor.configureInterceptors(ChannelProcess

2021-05-13 19:06:01 1693

Azkaban4.0.zip

空空如也