自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 clickhouse 连接不上

官方驱动使用java代码连接数据库的时候,有时由于ClickHouse服务器在高负载下出现滞后以及ClickHouse服务器和JDBC驱动程序的超时设置不同所致。当我们有很多选择查询时,ClickHouse服务器的性能将大大降低,简单查询将运行30秒以上,从而导致JDBC驱动程序超时。出现报错:ClickHouse exception, code: 159, host: 10.100.xx.xxx, port: 8123;

2023-05-31 20:23:09 1256

原创 springCloud的入门

微服务架构, 简单的说就是将单体应用进一步拆分,拆分成更小的服务,每个服务都是一个可以独立运行的项目。Spring Cloud Alibaba 致力于提供微服务开发的一站式解决方案。此项目包含开发分布式应用微服务的必需组件,方便开发者通过 Spring Cloud 编程模型轻松使用这些组件来开发分布式应用服务。依托 Spring Cloud Alibaba,您只需要添加一些注解和少量配置,就可以将 Spring Cloud 应用接入阿里微服务解决方案,通过阿里中间件来迅速搭建分布式应用系统。

2023-05-05 14:38:24 157

原创 数仓常见术语解析

比如说订单id,这种量级很大的维度,没必要用一张维度表来进行存储,而我们进行数据查询或者数据过滤的时候又非常需要,所以这种就冗余在事实表里面,这种就叫退化维度,citycode这种我们也会冗余在事实表里面,但是。数据集市(Data Mart),也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。由现实中已经存在的属性组成的键,它在业务概念中是唯一的,并具有一定的业务含义,比如商品ID,员工ID。

2023-05-04 21:08:46 217

原创 Linux脚本的解释器是坏的怎么解决

下编写shell脚本,赋予权限即可运行。,所以导致在windows下编写的文件会比linux下多回车符号。操作办法可以用sed命令进行全局替换。由于windows系统下换行符为。,回车可以看到文件格式为dos。修改文件格式为 unix即可。,linux下换行符为。

2023-04-28 08:55:49 428

原创 1. Hive基本概念

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

2023-04-27 09:09:44 73

原创 NameNode无法启动的节点解决方案

这个问题一般是由于两次或两次以上的格式化。

2023-04-26 15:33:23 385

原创 sqoop

上的数据 不同的目录下的数据合并在一起。将某一个数据库下面所有的表导入到集群。进行两张表合并成一张表 再行导入。将集群的数据导入到数据仓库中。显示数据库下所有的表的名字。获取数据库下某张表数据生成。将数据导入的数据仓库中。显示所有数据库的名字。

2023-04-26 14:45:03 92

原创 sqoop的使用

Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入数据时采用--null-string和--null-non-string。任务执行成功首先在tmp临时表中,然后将tmp表中的数据复制到目标表中(这个时候可以使用事务,保证事务的一致性)当Sqoop导出数据到MySql时,使用4个map怎么保证数据的一致性。

2023-04-26 14:07:53 85

原创 集群的 hadoop的退出,与离开安全模式

(2)bin/hdfs dfsadmin -safemode enter (功能描述:进入安全模式状态)(3)bin/hdfs dfsadmin -safemode leave (功能描述:离开安全模式状态)(4)bin/hdfs dfsadmin -safemode wait (功能描述:等待安全模式状态)集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。dfsadmin -safemode get (功能描述:查看安全模式状态)

2023-04-25 19:26:41 541

原创 hadoop退出安全模式

在hdfs-site.xml中设置安全阀值属性,属性值默认为0.999f,如果设为1则不进行安全检查。因为是在配置文件中进行硬修改,不利于管理员操作和修改,因此不推荐此方式。

2023-04-25 19:25:32 1111

原创 留存率的应用及算数

第1日留存率(即“次留”):(当天新增的用户中,新增日之后的第1天还登录的用户数)/第一天新增总用户数;第30日留存率:(当天新增的用户中,新增日之后的第30天还登录的用户数)/第一天新增总用户数;第3日留存率:(当天新增的用户中,新增日之后的第3天还登录的用户数)/第一天新增总用户数;第7日留存率:(当天新增的用户中,新增日之后的第7天还登录的用户数)/第一天新增总用户数;第N日留存:指的是新增用户日之后的第N日依然登录的用户占新增用户的比例。登录用户数:登录应用后至当前时间,至少登录过一次的用户数;

2023-04-22 10:02:27 181

原创 数仓建模中的表格类型介绍

在ODS层中的表格,保留有Mysql中导入的原始字段和数据,属于关系模型,不存在维度模型中的表格类型。而在DWD层中,创建维度模型,需要有两种表格类型组成:维度表和事实表维度表维度表:一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。例如:用户、商品、日期、地区等。维度表的特征:(相对于事实表而言)维表的范围很宽(具有多个属性、列比较多)跟事实表相比,行数相对较小:通常< 10万条内容相对固定:编码表事实表。

2023-04-22 09:48:47 437

原创 电商数仓的相关知识

是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。当数据出现问题之后,不用修复所有的数据,只需要从有问题的步骤开始修复。ODS层存放的是接入的原始数据,DW层是存放我们要重点设计的数据仓库中间层数据,APP是面向业务定制的应用数据。一般来讲,该层的数据表会相对比较少,一张表会涵盖比较多的业务内容,由于其字段较多,因此一般也会称该层的表为宽表。统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径。

2023-04-22 09:46:42 119

原创 Linux的 shell脚本常见的命令

17.sync: 数据同步写入磁盘命令(因为数据不会立刻写入磁盘,数据一般都是先写入电脑的缓冲区,然后过一段时间再写入磁盘内,有利于延长磁盘的寿命),使用sync指令可以使得数据同时写入磁盘之中。11.mv 重命名文件 ,例如:mv a.c b.c 将a.c 文件重命名为 b.c,重命名目录:mu test/ test1/表示重命名为 test1.删除文件:rm a.c -rf 删除目录(文件夹): rmdir test/ (不要漏了 / 表示文件夹)

2023-04-19 09:52:31 594

原创 大厂每个程序猿的理想之地

所有的面试题目都不是一成不变的,上面的面试题只是给大家一个借鉴作用,最主要的是给自己增加知识的储备,有备无患。

2023-04-12 20:39:35 130

原创 HDFS 以及HADOOP相关知识

需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒,dfs.heartbeat.interval的单位为秒。namenode和secondary namenode的工作目录存储结构完全相同,所以,当namenode故障退出需要重新恢复时,可以从secondary namenode的工作目录中将fsimage拷贝到namenode的工作目录,以恢复namenode的元数据。要想将技术准确用在恰当的地方,必须对技术有深刻的理解。

2023-04-09 21:00:06 153 1

原创 phoneix 的相关知识

在phoenix中,默认情况下,库名,表名,字段名等会自动转换为大写,若要小写,使用双引号,如"ns1"。2)where的字段值要加单引号 ' ', 字段名的小写是加双引号,别弄混了。:Phoenix中不能使用truncate table tb;注意:这里state和city共同组成 行键rowkey。1)upsert:表中的主键不存在就是插入,存在就是更新。这里 定义的主键,就是hbase中的rowkey。注意:特别注意引号,总之很变态。

2023-04-06 20:27:49 287 1

原创 yarn 的 原理

YARN是Hadoop2.0中的资源管理系统,它的设计思想是将MRv1中的JobTracker拆分成两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序持有的ApplicationMaster。其中RM负责整个系统的资源管理和分配,AM负责单个应用程序的管理。当提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的AM,它负责向RM申请资源,并要求NM启动占用一定资源的任务,不同的AM被分布在不同的节点上。

2023-04-06 20:26:07 71 1

原创 Hadoop

Hadoop的三个核心模块:HDFS、MapReduce(简称MR)和Yarn,其中HDFS模块负责数据存储,MapReduce负责数据计算,Yarn负责计算过程中的资源调度。在存算分离的架构中,三者越来越多的同其他框架搭配使用,如用Spark替代MapReduce作为计算引擎或者k8s替换Yarn作为资源调度工作。虽然已经有了许多替代框架,MapReduce的计算原理仍具有重要意义,掌握MR对于学习其他计算框架甚至自研计算框架,都非常有帮助。

2023-04-06 20:22:18 324 3

flume.docx的配置与整合

flume的相关操作,flume的配置与整合

2023-05-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除