韶航-CSDN博客

原创 clickhouse 连接不上

官方驱动使用java代码连接数据库的时候，有时由于ClickHouse服务器在高负载下出现滞后以及ClickHouse服务器和JDBC驱动程序的超时设置不同所致。当我们有很多选择查询时，ClickHouse服务器的性能将大大降低，简单查询将运行30秒以上，从而导致JDBC驱动程序超时。出现报错：ClickHouse exception, code: 159, host: 10.100.xx.xxx, port: 8123;

2023-05-31 20:23:09 1256

原创 springCloud的入门

微服务架构，简单的说就是将单体应用进一步拆分，拆分成更小的服务，每个服务都是一个可以独立运行的项目。Spring Cloud Alibaba 致力于提供微服务开发的一站式解决方案。此项目包含开发分布式应用微服务的必需组件，方便开发者通过 Spring Cloud 编程模型轻松使用这些组件来开发分布式应用服务。依托 Spring Cloud Alibaba，您只需要添加一些注解和少量配置，就可以将 Spring Cloud 应用接入阿里微服务解决方案，通过阿里中间件来迅速搭建分布式应用系统。

2023-05-05 14:38:24 157

原创数仓常见术语解析

比如说订单id，这种量级很大的维度，没必要用一张维度表来进行存储，而我们进行数据查询或者数据过滤的时候又非常需要，所以这种就冗余在事实表里面，这种就叫退化维度，citycode这种我们也会冗余在事实表里面，但是。数据集市（Data Mart），也叫数据市场，数据集市就是满足特定的部门或者用户的需求，按照多维的方式进行存储，包括定义维度、需要计算的指标、维度的层次等，生成面向决策分析需求的数据立方体。由现实中已经存在的属性组成的键，它在业务概念中是唯一的，并具有一定的业务含义，比如商品ID，员工ID。

2023-05-04 21:08:46 217

原创 Linux脚本的解释器是坏的怎么解决

下编写shell脚本，赋予权限即可运行。，所以导致在windows下编写的文件会比linux下多回车符号。操作办法可以用sed命令进行全局替换。由于windows系统下换行符为。，回车可以看到文件格式为dos。修改文件格式为 unix即可。，linux下换行符为。

2023-04-28 08:55:49 428

原创 1. Hive基本概念

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

2023-04-27 09:09:44 73

原创 NameNode无法启动的节点解决方案

这个问题一般是由于两次或两次以上的格式化。

2023-04-26 15:33:23 385

原创 sqoop

上的数据不同的目录下的数据合并在一起。将某一个数据库下面所有的表导入到集群。进行两张表合并成一张表再行导入。将集群的数据导入到数据仓库中。显示数据库下所有的表的名字。获取数据库下某张表数据生成。将数据导入的数据仓库中。显示所有数据库的名字。

2023-04-26 14:45:03 92

原创 sqoop的使用

Hive中的Null在底层是以“\N”来存储，而MySQL中的Null在底层就是Null，为了保证数据两端的一致性。在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入数据时采用--null-string和--null-non-string。任务执行成功首先在tmp临时表中，然后将tmp表中的数据复制到目标表中（这个时候可以使用事务，保证事务的一致性）当Sqoop导出数据到MySql时，使用4个map怎么保证数据的一致性。

2023-04-26 14:07:53 85

原创集群的 hadoop的退出,与离开安全模式

（2）bin/hdfs dfsadmin -safemode enter （功能描述：进入安全模式状态）（3）bin/hdfs dfsadmin -safemode leave （功能描述：离开安全模式状态）（4）bin/hdfs dfsadmin -safemode wait （功能描述：等待安全模式状态）集群处于安全模式，不能执行重要操作（写操作）。集群启动完成后，自动退出安全模式。dfsadmin -safemode get （功能描述：查看安全模式状态）

2023-04-25 19:26:41 541

原创 hadoop退出安全模式

在hdfs-site.xml中设置安全阀值属性，属性值默认为0.999f，如果设为1则不进行安全检查。因为是在配置文件中进行硬修改，不利于管理员操作和修改，因此不推荐此方式。

2023-04-25 19:25:32 1111

原创留存率的应用及算数

第1日留存率（即“次留”）：（当天新增的用户中，新增日之后的第1天还登录的用户数）/第一天新增总用户数；第30日留存率：（当天新增的用户中，新增日之后的第30天还登录的用户数）/第一天新增总用户数；第3日留存率：（当天新增的用户中，新增日之后的第3天还登录的用户数）/第一天新增总用户数；第7日留存率：（当天新增的用户中，新增日之后的第7天还登录的用户数）/第一天新增总用户数；第N日留存：指的是新增用户日之后的第N日依然登录的用户占新增用户的比例。登录用户数：登录应用后至当前时间，至少登录过一次的用户数；

2023-04-22 10:02:27 181

原创数仓建模中的表格类型介绍

在ODS层中的表格,保留有Mysql中导入的原始字段和数据,属于关系模型,不存在维度模型中的表格类型。而在DWD层中,创建维度模型,需要有两种表格类型组成:维度表和事实表维度表维度表：一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。例如：用户、商品、日期、地区等。维度表的特征：(相对于事实表而言)维表的范围很宽（具有多个属性、列比较多）跟事实表相比，行数相对较小：通常< 10万条内容相对固定：编码表事实表。

2023-04-22 09:48:47 437

原创电商数仓的相关知识

是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念，每一个主题基本对应一个宏观的分析领域。当数据出现问题之后，不用修复所有的数据，只需要从有问题的步骤开始修复。ODS层存放的是接入的原始数据，DW层是存放我们要重点设计的数据仓库中间层数据，APP是面向业务定制的应用数据。一般来讲，该层的数据表会相对比较少，一张表会涵盖比较多的业务内容，由于其字段较多，因此一般也会称该层的表为宽表。统一数据口径：通过数据分层，提供统一的数据出口，统一对外输出的数据口径。

2023-04-22 09:46:42 119

原创 Linux的 shell脚本常见的命令

17.sync：数据同步写入磁盘命令（因为数据不会立刻写入磁盘，数据一般都是先写入电脑的缓冲区，然后过一段时间再写入磁盘内，有利于延长磁盘的寿命），使用sync指令可以使得数据同时写入磁盘之中。11.mv 重命名文件，例如：mv a.c b.c 将a.c 文件重命名为 b.c，重命名目录：mu test/ test1/表示重命名为 test1.删除文件：rm a.c -rf 删除目录（文件夹）： rmdir test/ (不要漏了 / 表示文件夹）

2023-04-19 09:52:31 594

原创大厂每个程序猿的理想之地

所有的面试题目都不是一成不变的，上面的面试题只是给大家一个借鉴作用，最主要的是给自己增加知识的储备，有备无患。

2023-04-12 20:39:35 130

原创 HDFS 以及HADOOP相关知识

需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒。namenode和secondary namenode的工作目录存储结构完全相同，所以，当namenode故障退出需要重新恢复时，可以从secondary namenode的工作目录中将fsimage拷贝到namenode的工作目录，以恢复namenode的元数据。要想将技术准确用在恰当的地方，必须对技术有深刻的理解。

2023-04-09 21:00:06 153 1

原创 phoneix 的相关知识

在phoenix中，默认情况下，库名，表名，字段名等会自动转换为大写，若要小写，使用双引号，如"ns1"。2）where的字段值要加单引号 ' ', 字段名的小写是加双引号，别弄混了。:Phoenix中不能使用truncate table tb;注意：这里state和city共同组成行键rowkey。1）upsert：表中的主键不存在就是插入，存在就是更新。这里定义的主键，就是hbase中的rowkey。注意:特别注意引号，总之很变态。

2023-04-06 20:27:49 287 1

原创 yarn 的原理

YARN是Hadoop2.0中的资源管理系统，它的设计思想是将MRv1中的JobTracker拆分成两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序持有的ApplicationMaster。其中RM负责整个系统的资源管理和分配，AM负责单个应用程序的管理。当提交一个应用程序时，需要提供一个用以跟踪和管理这个程序的AM，它负责向RM申请资源，并要求NM启动占用一定资源的任务，不同的AM被分布在不同的节点上。

2023-04-06 20:26:07 71 1

原创 Hadoop

Hadoop的三个核心模块：HDFS、MapReduce（简称MR）和Yarn，其中HDFS模块负责数据存储，MapReduce负责数据计算，Yarn负责计算过程中的资源调度。在存算分离的架构中，三者越来越多的同其他框架搭配使用，如用Spark替代MapReduce作为计算引擎或者k8s替换Yarn作为资源调度工作。虽然已经有了许多替代框架，MapReduce的计算原理仍具有重要意义，掌握MR对于学习其他计算框架甚至自研计算框架，都非常有帮助。

2023-04-06 20:22:18 324 3

qq_66882059的博客