Kevin-dut-CSDN博客

原创 Java-3-异常处理

在Java中，将程序执行中发生的不正常情况称为“异常”，开发过程中的语法错误和逻辑错误不是异常。分类：Error：JVM无法解决的严重问题，如系统内部错误、资源耗尽等等，比如：OOM，一般不编写针对性的代码进行处理Exception：其他因编程错误或偶然的外在因素导致的一般性问题，可以使用针对性的代码进行处理。例如：空指针访问、试图读取不存在的文件、网络连接中断、数组角标越界对于这些错误，一是遇到错误就终止程序的运行，二是编写程序时，就考虑到错误的检测、错误消息的提示以及错误的处理捕获错误最

2024-03-23 14:32:17 264

原创 Java 沉淀-2

java.lang：包含一些java语言的核心类，如String、Math、Integer、System和Thread，提供常用功能java.net：包含执行与网络相关的操作的类的接口。java.io：包含能提供多种输入/输出功能的类。java.util：包含一些实用工具类，如定义系统特性、接口的集合框架类、使用与日期日历相关的函数。java.text：包含了一些java格式化相关的类java.sql：包含了java进行JDBC数据库编程的相关类/接口。

2024-03-23 14:17:52 2382 1

原创排序算法-基础

原地排序，复杂度O(N2)

2024-03-15 16:54:09 478 1

原创栈-力扣20 有效括号

【代码】栈-力扣20 有效括号。

2024-03-14 13:01:38 471 1

原创二分查找-力扣35

【代码】二分查找-力扣35。

2024-03-14 12:58:37 429 1

原创递归-汉诺塔问题

当可以把n问题化成类过程n-1问题时，可考虑递归调用自身。

2024-03-14 12:56:14 418 1

原创 ACM模式基础输入-python

修改原数据 vs 返回新数据sort会修改原列表，而sorted会创建一个新的排序后的列表，原数据结构不变。方法 vs 函数sort是列表的一个方法，只能用于列表；而sorted是Python的内置函数，可以对任何可迭代对象进行排序。返回值sort方法没有返回值（或者说返回None），因为它修改的是原列表；sorted函数返回一个新的排序后的列表。

2024-03-14 12:45:17 550 1

原创算法基础-时空复杂度

折半循环O(logn)：比如二分查找。空间复杂度：看实际存储。

2024-03-14 12:16:18 370 1

原创实时数仓-电商数据仓库系统

作为集合元素，查询结果的每一行对应一个实体类对象，将所有对象封装到 List 集合中，返回给方法调用者。

2024-03-10 23:31:05 1864 1

原创实时数仓-需求及架构设计—详

实时数仓只需要增量同步，就是每天只将业务数据中的新增及变化数据同步到数据仓库。

2024-03-10 18:50:27 1369 1

原创离线数仓-数据仓库系统

数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后，数据才能得到高性能、低成本、高效率、高质量的使用。高性能：良好的数据模型能够帮助我们快速查询所需要的数据。低成本：良好的数据模型能减少重复计算，实现计算结果的复用，降低计算成本。高效率：良好的数据模型能极大的改善用户使用数据的体验，提高使用数据的效率。高质量：良好的数据模型能改善数据统计口径的混乱，减少计算错误的可能性。事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计。

2024-03-10 16:04:50 4390 3

原创 Hadoop学习日记DAY4-Yarn

Yarn是一个，负责为运算程序提供服务器运算资源，相当于一个分布式的，而等运算程序则相当于。

2024-03-09 20:30:48 806

原创 Hadoop学习笔记DAY3-MapReduce

1）什么是序列化序列化就是把内存的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输反序列化就是将收到字节序列或者是磁盘的持久化数据，转换成内存中的对象2）Why一般来说，对象只生存在内存里，关机断电就没有了，而且只能由本地进程使用，不能通过网络发送给另一台计算机，而序列化可以存储对象，可以将对象发送到远程计算机3）为什么不直接使用Java序列化。

2024-03-09 18:12:08 894

原创 Hadoop学习笔记DAY2-HDFS

是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。使用场景：适合一次写入，多次读出的场景，一个文件经过创建、写入和关闭之后就不需要改变。

2024-03-09 14:42:38 893

原创 Hadoop学习笔记DAY1-入门

1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等2）DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。注：块数据的校验和是一种用于验证数据完整性的技术，它通常用于存储或传输数据时，以确保数据在传输或存储过程中没有发生损坏或篡改。3）Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份。

2024-03-08 21:06:34 800 1

原创离线数仓：数仓数据同步策略

按照之前规划，该Flume需要将Kafka中topic_log的数据发往HDFS，并且对每天产生的用户行为日志进行区分，将不同天的数据发往HDFS不同天的路径。所以此处选择这些组件是 Apache Flume 中的核心组件，用于构建数据流管道以实现数据的采集、传输和存储。KafkaSource 是 Flume 的源（Source）组件之一，用于从 Apache Kafka 中消费消息数据。

2024-03-08 16:42:08 2701 1

原创离线数仓-业务数据采集平台部分

2.1电商数据表结构以下为本电商数仓系统涉及到的业务数据表结构关系。这34个表以订单表、用户表、SKU商品表、活动表和优惠券表为中心，延伸出了优惠券领用表、支付流水表、活动订单表、订单详情表、订单状态表、商品评论表、编码字典表退单表、SPU商品表等，用户表提供用户的详细信息，支付流水表提供该订单的支付详情，订单详情表提供订单的商品数量等情况，商品表给订单详情表提供商品的详细信息。本次讲解以此34个表为例，实际项目中，业务数据库中表格远远不止这些。2.1.1活动信息表（字段名字段说明id活动ID。

2024-03-08 13:39:46 864 1

原创 SQL沉淀，主要来源于刷题

刷题遇到不会的沉淀下来。。。。

2024-03-07 15:28:07 837 1

原创 JAVA入门自学要点整理沉淀

只保留易遗漏知识，基本不涉及基本语法

2024-03-07 14:33:47 944

原创离线电商数仓知识笔记沉淀-流程及用户行为采集平台

数据仓库：将数据的统计结果为企业的经营决策提供数据支撑，不是数据流转的终点，需要将统计结果将可视化平台呈现给客户。：warehouse还有大商店之意，所以存数据不是数据仓库的本质目的，是为了把数据加工处理后对外提供服务。数据仓库：核心作用是统计分析数据，列式存储，存储海量数据（数据越多统计越准确）数据库：核心作用是查找业务数据，行式存储，索引（快速定位），不能存储海量数据。数仓项目：mysql、hdfs、spark、Flink、MR、hive。数仓项目：以数据计算为主、同时可以储存数据。

2024-03-07 13:14:36 1233

原创实时数仓学习笔记沉淀-需求及架构选型

hadoop flink实时运算 kafka 分层 hbase（基于hdfs磁盘存储） phoenix皮肤可以在hbase上写sql来存储维表 redis内存数据库，加速维表查询 clickhouse放置dws层数据供查询。腾讯云EMR：优点高效（一站式部署）便捷（没有繁琐的配置文件，由腾讯云部署）灵活（可以选择腾讯云提供的服务，也可以自行安装搭建服务）根据数仓建模理论搭建完整数据仓库，包括：需求分析、架构设计、数据存储、数据存储：业务数据Mysql 大数据HDFS HBase。

2024-03-07 02:30:18 403