大数据点滴-CSDN博客

原创数据仓库-数据治理小厂实践

数据治理贯穿数仓中数据的整个生命周期，从数据的产生、加载、清洗、计算，再到数据展示、应用，每个阶段都需要对数据进行治理，像有些比较大的企业都是有自己的数据治理平台或者会开发一些便捷的平台，对于没有平台的公司，这里根据自己的亲身实践简单整理一下。

2023-12-21 17:35:50 2287

原创数据仓库-基础知识(维度建模)

数据仓库基础知识，包含维度建模中事实表、维度表、模型的详细说明

2023-01-10 14:33:49 3963

原创 HDFS块信息异常，spark无法读取数据

flume数据落盘到hdfs上时，正在写入的文件一般是以.log.tmp结尾的文件，当flume将文件关闭以后将变为：.log 结尾的文件。由于我们使用阿里云的服务器，经常会有个别节点挂掉(进程在，无法通信，需要在阿里云上强制重启机器才行)，导致一些文件写入中断，非正常关闭，造成快信息异常。导致spark报错，流程异常。

2024-07-30 11:38:56 233

原创 Scrapy框架的基本使用教程

scrapy genspider 爬虫程序的名称要爬取网站的域名。在game_4399.py文件中编写爬虫代码，代码如下。在终端输入命令，就可以看到爬虫程序运行结果。scrapy crawl 爬虫程序名称。

2024-07-04 10:46:51 388

原创列转行（spark 与presto语法）

【代码】列转行（spark 与presto语法）

2024-04-29 17:38:57 354 2

原创 Kafka中groupid和auto.offset.reset的关系

消费组和偏移量的关系

2024-04-03 11:48:41 509 1

原创解决Maxwell报错RuntimeException: Couldn‘t find database xxx

没有启动的时候，进行了MySQL数据库的更改，此时binlog发生了变化，Maxwell没有接收到，当你再次启动Maxwell的时候，Maxwell就会报错。之所以出现这个报错是因为你在。

2024-03-29 16:36:48 348 1

原创 HBase报错：Master is initializing

2、如果以上方式仍然没有效果，可能报错的原因二是：HDFS中和Zookeeper中的HBase没有删除，所以这里需要将其进行删除，具体的命令如下：注意：删除Zookeeper中的 /hbase 目录，需要保证zookeeper已经开启，否则无法连接上。在启动HBase之后进入bin/hbase shell 命令行进行一些操作，比如建表或者添加数据到表中出现这种报错org.apache.hadoop.hbase.PleaseHoldException: Master is initializing。

2024-03-29 10:25:16 2720 3

原创数据仓库相关

计算资源：雪花模型计算时join的表比较多，资源的消耗(内存、CPU)大。使用较多的星型模型，其中星型模型是一级维度，而雪花是多级维度的建模。存储资源：星型模型冗余程度高，存储占用高，相对大数据来说可接受。

2024-01-05 15:31:23 425

原创 Spark相关

注意：由于Spark只负责计算，所有并没有Hadoop中存储数据的端口9。client模式：Driver运行在Client上（不在AM里）S：趋势，但是目前不成熟，需要的配置信息太多。查看任务执行情况端口。类比Hadoop的8。对集群性能要求非常高时用。cluster模式：Driver在AM上。是Spark自身的一个调度系统。类比Hadoop的1。：采用Hadoop的资源调度器。

2023-12-28 15:58:34 441

原创 DataX安装与原理

DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。

2023-12-21 11:57:44 883

原创 HDFD 回收站【Trash】机制

HDFS Trashji机制知识总结

2023-04-03 10:33:55 1760

原创 java 标识符命名规则与规范

标识符：命名规范与命名规则

2023-03-09 15:17:58 397

原创 MYSQL5.7：Access denied for user ‘root‘@‘localhost‘ (using password:YES)解决方法

MYSQL5.7：Access denied for user 'root'@'localhost' (using password:YES)解决方法

2023-03-03 13:11:21 2439

原创 MybatisPlus 实体类与数据库表映射关系

MybatisPlus 实体类与数据库表映射

2023-03-02 14:16:01 1763

原创 Spring Boot 报错：Failed to configure a DataSource

Failed to configure a DataSource: 'url' attribute is not specified and no embedded datasource could be configured.

2023-03-01 15:11:09 972 1

原创指标体系(一张图了解指标体系的知识)

一张图了解指标体系的知识

2022-09-07 10:55:41 1001

原创数据仓库知识总结(一张图全方位了解数据仓库)

一张图全方位了解数据仓库的相关知识

2022-09-07 10:46:45 474

原创如何避免Spark SQL做数据导入时产生大量小文件

在纯写SQL的情景中，可以在SQL后面加上distribute by 分区字段，cast(rand() * n as int)具体详解可参考：https://mp.weixin.qq.com/s/vmdkwDl7yP7cOWvL3Mittg

2021-03-30 09:32:08 360

原创 Git status时处理Untracked files(未跟踪文件)

一、问题描述当我们使用git status 时查看修改的文件，除了我们修改的文件，会发现有很多Untracked files(未跟踪文件)，对我们并没有用，影响视觉效果，我们可以将其删掉。二、删除方法2.1 删除 untracked filesgit clean -f2.2 删除 untracked files（包括untracked 的目录）git clean -fd2.3连gitignore的untrack文件/目录也一起删掉（慎用，一般这个是用来删掉编译出...

2021-02-20 11:55:39 11903 2

原创 Hive的联级（cascade）- 修改分区表的字段类型或者增加新字段

一、问题描述踩坑：数仓的分区表，由于需求需要，要把int类型的字段改为bigint，我直接执行的以下语句： alter table table_name change column 字段字段 bigint;出现的问题：之后的分区数据可以正常的显示，历史数据查出来的数据为0，无论insert overwrite重新导数据、把有问题的分区数据删掉都不能正常显示。尝试了在原来基础上执行：alter table table_name change column 字段字段 bigin

2021-01-28 13:32:21 12580 2

原创 Hive 修复分区 MSCK REPAIR TABLE的使用

因为昨天工作的时候踩了坑，所以来记录一下MSCK REPAIR TABLE 命令是做啥的MSCK REPAIR TABLE命令主要是用来：解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。我们知道hive有个服务叫metastore，这个服务主要是存储一些元数据信息，比如数据库名，表名或者表的分区等等信息。如果不是通过hive的insert等插入语句，很多分区信息在metastore中是没有的，如果插入分区数据量很多的话，

2021-01-10 23:03:20 2308

原创 hive使用动态分区插入数据详解

目录一、静态分区弊端二、动态分区的使用一、静态分区弊端往hive分区表中插入数据时，如果需要创建的分区很多，比如以表中某个字段进行分区存储，则需要复制粘贴修改很多sql去执行，效率低。因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。二、动态分区的使用1、创建一个单一字段分区表hive> create table dpartition(id int ,name string ) partiti

2020-10-25 23:05:35 5490

原创 hive的列分隔符和行分隔符的使用

目录一、Hive中默认的分割符如下二、分隔符的指定与使用三、建好表之后更改字段分隔符一、Hive中默认的分割符如下分隔符描述 \n 行分隔符 ^A 字段分隔符 \001 ^B array、struct的元素间的分隔符，map的键值对与键值对间分隔符 \002 ^C map中键与值之间的分隔符\003 二、分隔符的指定与使用hive中在创建表时，一般会根据导入的数据格式来指定字段分隔符和列分隔符。一般导入的文本数据字段分隔...

2020-10-25 22:33:43 11297

原创 Maven打包——配置文件

当我们需要打包一些灵活性（有可能经常修改代码）的代码时，会遇到这样的问题：每次修改代码完以后，得需要重新对代码进行打包，重新上传使用。此时，我们可以将一些经常修改的代码放置在配置文件中，以便灵活修改，修改时，只需在打包好的压缩包中进行配置的修改，保存即可，无需重新打包。...

2020-10-20 20:21:28 4955

原创 Kafka auto.offset.reset值详解

https://blog.csdn.net/lishuangzhe7047/article/details/74530417

2020-10-14 00:58:53 5316

原创 Flume中采用TaildirSource多文件监控实时采集利弊

Flume1.7.0加入了taildirSource作为agent的source。可以说是spooling directory source+execSource的结合体。可以可以监控多个目录，并且使用正则表达式匹配该目录中的文件名进行实时收集。-- 优点： 1.实现多文件监控 2.实现断点续传-- 测试断点续传：当flume由于未知错误停止运行后，日志仍然在不断增长，此时手动重新启动flume，flume可以根据记录的采集点接续上次位置继续采集。-- 根据配置信息

2020-10-13 10:42:24 5274 1

原创 Linux上1024以下的端口

在Linux上，以一般用户身份执行一个需要占用小于1024端口的程序，会得到错误提示：Permission denied这是因为在Linux平台，小于1024的端口被认为是特殊端口。The TCP/IP port numbers below 1024 are special in that normal users are not allowed to run servers on them. This is a security feaure, in that if you connect

2020-10-13 10:24:34 7755 1

原创 HIve中日志存放位置

-- Hive中的日志分为两种1. 系统日志，记录了hive的运行情况，错误状况。2. Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢？在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况，默认的存储情况：hive.root.logger=WARN,DRFAhive.log.dir=/tmp/${user.name} # 默认的存储位置hive.log.file=hive.log # 默认的文件名.

2020-10-10 00:30:13 11475 1

原创 SQL inner join、left join、right join、full outer join、union、union all的区别

假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录，其中有两条记录name是相同的，如下所示：让我们看看不同JOIN的不同一、inner joinSELECT * FROM TableA INNER JOIN TableB ON TableA.name = TableB.name2.full[outer] join(MySQL不支持全关联)SELECT * FROM TableA FULL OUTER JOIN T...

2020-10-07 20:10:58 6709 1

原创 Hive动态分区详解

往hive分区表中插入数据时，如果需要创建的分区很多，比如以表中某个字段进行分区存储，则需要复制粘贴修改很多sql去执行，效率低。因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。 1、创建一个单一字段分区表hive>create table dpartition(id int ,name string )partitioned by(ct string ); 2、往表里装载数据，并且动态建立分区，以city...

2020-10-06 19:01:47 12779 1

原创 Redis

一、NoSQL数据库与关系型数据库NoSQL是Not only SQL的缩写，大意为“不仅仅是SQL”，说明这项技术是传统关系型数据库的补充而非替代。在整个NoSQL技术栈中MemCache、Redis、MongoDB被称为NoSQL三剑客。那么时代为什么需要NoSQL数据库呢？我们来做个对比：关系型数据库(MySQL) NoSQL数据库(Redis) 数据存储位置硬盘内...

2020-10-05 23:07:18 6315

原创 Kylin安装与使用

一、Kylin概述Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。二、Kylin机构1）REST ServerREST Server是一套面向应用程序开发的入口点，旨在实现针对Kylin平台的应用开发工作。此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以通过Re.

2020-10-04 10:58:10 5304

原创 Superset安装与使用

一、Superset入门1.1 Superset概述Apache Superset是一个开源的、现代的、轻量级BI分析工具，能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘，且拥有友好的用户界面，十分易用。1.2 Superset应用场景由于Superset能够对接常用的大数据分析工具，如Hive、Kylin、Druid等，且支持自定义仪表盘，故可作为数仓的可视化工具。二、 Superset安装及...

2020-09-28 00:14:26 6682 1

原创 Presto的优化

目录一、Presto优化之数据存储二、Presto优化之查询SQL三、注意事项一、Presto优化之数据存储-- 合理设置分区与Hive类似，Presto会根据元数据信息读取分区数据，合理的分区能减少Presto数据读取量，提升查询性能。-- 使用列式存储Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC格式存储。相对于Parquet，Presto对ORC支持更好。-- 使用压缩数据压缩可以减少节点间数据传输对IO带.

2020-09-27 23:46:12 6043

原创 Presto安装与使用

目录一、Presto概述二、Presto架构三、Presto优缺点四、Presto、Impala性能比较五、安装5.1Presto Server安装5.2Presto命令行Client安装5.3 Presto可视化Client安装一、Presto概述Presto是由Facebook开发的，是一个运行在多台服务器上的分布式查询引擎，本身并不存储数据，但是可以接入多种数据源（Hive、Oracle、MySql、Kafka、Redis等），并且支持跨数据源的级联查询。...

2020-09-27 23:21:52 6871

原创 Hadoop面试题

1、什么是Apache Hadoop及其优势-- Apache Hadoop 1、Hadoop是一个有Apache基金会所开发的分布式系统基础框架 2、主要解决海量数据的存储和海量数据的分析计算问题 3、广义来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈-- Hadoop优势 1、高可靠性。Hadoop按位存储和底层维护多个数据副本，即使Hadoop某个计算元素或者存贮出现故障，也不会丢失数据。 2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这

2020-09-26 22:10:08 5546 1

空空如也

空空如也