大数据海中游泳的鱼-CSDN博客

原创大数据海中的鱼(大目录)

大数据组件和概念，作为目录使用

2023-04-06 22:33:47 104

原创 Hadoop权限管理使用什么组件(HA + Kerberos)

综上所述，Hadoop 权限管理主要使用 Hadoop Authorization (HA) 和 Apache Ranger 两个组件，它们分别提供了基于权限的访问控制和细粒度的权限管理功能，可以保护 Hadoop 中的数据安全。是 Hadoop 中的一种基于权限的访问控制机制，通过 HA，可以将用户和用户组与 Hadoop 文件系统中的权限进行映射，从而对其访问进行限制。来管理 Hadoop 文件系统中的权限，支持基于用户、用户组和访问类型（如读、写、执行等）的权限控制。

2023-04-21 00:18:29 424 1

原创 DolphinScheduler操作步骤

2）上传工作流所需脚本：将工作流所需的所有脚本上传到资源中心scripts路径下。（1）切换到 admin 用户，在环境管理下创建环境。（1）在gmall项目下创建工作流。（2）在环境配置中添加如下内容。（2）各任务节点配置如下。

2023-04-19 21:31:33 376

原创 DW每层设计要点

（3）DWS层表名的命名规范为dws_数据域_统计粒度_业务过程_统计周期（1d/nd/td）（3）DWD层表名的命名规范为dwd_数据域_表名_单分区增量全量标识（inc/full）（3）ODS层表名的命名规范为：ods_表名_单分区增量全量标识（inc/full）。（3）DIM层表名的命名规范为dim_表名_全量表或者拉链表标识（full/zip）（1）DIM层的设计依据是维度建模理论，该层存储维度模型的维度表。（1）DWD层的设计依据是维度建模理论，该层存储维度模型的事实表。

2023-04-19 21:13:04 451

原创 HQL中的JOIN操作

Hive支持多种JOIN方式将多个表连接起来，从而进行复杂的查询操作，包括INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN、CROSS JOIN和SELF JOIN等。在Hive中，可以使用SELF JOIN方式进行递归查询，从而查询出某个节点的所有子节点或父节点等信息。其中，子查询部分查询出初始条件下的员工信息，使用UNION ALL和JOIN子查询部分进行递归查询。查询结果中，包含每个下属员工的姓名和深度等信息，深度表示该员工相对于初始条件员工的层数。

2023-04-19 00:15:00 687

原创 Python文件操作

在 Python 中清空某个文件有多种方法，可以根据不同的需求选择不同的方法。需要注意的是，以上方法都是清空文件内容，而不是删除文件本身。

2023-04-19 00:00:00 78

原创什么是Kubernetes

Kubernetes是一个开源的容器编排引擎，用于自动化部署、扩展和管理容器化应用程序。它提供了一种平台无关的方式来管理容器化应用程序，使开发人员可以专注于编写应用程序，而不必担心底层基础架构的细节。Kubernetes是一个开源的容器编排引擎，用于自动化部署、扩展和管理容器化应用程序。它由Master节点和多个Node节点组成，Master节点用于管理和监控节点、容器和应用程序，Node节点用于运行容器和应用程序。在使用Kubernetes时，需要监控相关指标，以确保应用程序的稳定和高效运行。

2023-04-17 00:30:00 161

原创大数据离线分析的完整流程

大数据分析大概流程，和对应的组件

2023-04-16 00:15:00 1447

原创什么是Tableau(BI工具)

Tableau是一款商业智能工具，用于数据可视化和分析。它可以通过简单易用的界面和交互式的视图来探索和分析数据，帮助用户快速发现数据中的模式和趋势，并支持数据驱动的决策和行动。

2023-04-16 00:00:00 439

原创 Kettle是什么(ETL工具)

它可以用于从不同的数据源中提取数据、进行转换和加载到目标数据源中。Kettle支持多种数据源的操作，如关系型数据库、NoSQL数据库、文件等，同时也支持多种数据操作任务的实现，如数据清洗、数据整合、数据分析等。

2023-04-15 14:15:00 4237 1

原创什么是Sqoop

开发人员：编写Sqoop导入导出任务，包括数据源的选择、数据转换和数据的输出方式，以实现数据在Hadoop和关系型数据库之间的传输。Sqoop是Hadoop生态系统中的一个重要组件，它可以帮助用户轻松地将现有的数据导入到Hadoop中，方便后续的数据分析和处理。此外，Sqoop是Hadoop生态系统中的一个重要组件，它可以与Hadoop集成使用，提高Hadoop的数据处理能力。运维人员：监控Sqoop的运行状态，包括任务的执行情况、数据传输速率等，以及对Sqoop进行故障排除和性能优化。

2023-04-15 00:15:00 956

原创什么是Pipeline(和大数据无关)

Pipeline是一种软件开发流程，它将软件开发过程中的不同阶段（如编译、测试、部署等）自动化并连接起来，从而实现快速、可靠的软件交付。Pipeline将软件开发过程中的每个步骤都定义为一个阶段，并在每个阶段中执行一系列的任务，以达到自动化流程的目的。Pipeline是一种自动化的软件开发流程，它将软件开发过程中的不同阶段（如编译、测试、部署等）自动化并连接起来，从而实现快速、可靠的软件交付。在使用Pipeline时，需要监控相关指标，以确保Pipeline的稳定和高效运行。

2023-04-14 00:15:00 1357

原创什么是Kafka

Kafka是一款高吞吐量的分布式消息队列系统，能够处理大量的实时数据。它可以将数据持久化到磁盘，同时支持数据的发布和订阅，是一种可靠的、高效的消息传递系统。Kafka是一款高吞吐量的分布式消息队列系统，支持消息的发布和订阅，并提供了多种客户端库和API。在使用Kafka时，需要配置Producer和Consumer以及Kafka Broker，并监控相关指标，以确保Kafka集群的稳定和高效运行。

2023-04-13 12:45:00 396

原创什么是Prometheus

Prometheus是一款开源的监控和告警系统，可以对分布式系统进行监控和警报。它是一个独立于存储的时序数据管理系统，可帮助您轻松地查询、分析和警报有关应用程序的数据。Prometheus具有强大的查询语言和可视化工具，可帮助您快速了解系统的运行状况。云原生可使用睿智云(付费)。

2023-04-13 00:15:00 303

原创 Hadoop集群中常用组件的命令(后续补充)

提交Spark应用程序：spark-submit --class com.example.Application /path/to/app.jar arg1 arg2。上传本地文件到HDFS：hdfs dfs -put /path/to/local/file /path/to/hdfs/directory。下载HDFS文件到本地：hdfs dfs -get /path/to/hdfs/file /path/to/local/directory。

2023-04-12 00:15:00 402

原创 Python核心编程——保护性代码

在实际工作中，个人编写的函数通常需要对输入的数据保护性代码的校验，以免你写的代码抛异常。无论如何，对输入进行验证是保护性编程的重要步骤之一，可以确保程序的正确性和可靠性。保护性编程是一种编写代码的方法，目的是尽可能减少代码中可能出现的错误和漏洞。、空字符串、空列表、空字典、零值、非空字符串、非空列表和非空字典来测试函数，并输出相应的信息。我们使用整数、浮点数、字符串、列表和字典来测试函数，并输出它们的数据类型和相应的信息。最后，如果用户输入不为空，则输出用户输入，并可以在这里添加您想要执行的代码。

2023-04-11 23:31:48 269

原创 Python基础(先写个框架)

Python核心编程语言学习内容(明白要学什么)Python基础语法：了解Python的基本语法，如变量、数据类型、运算符、控制语句等。函数和模块：掌握函数和模块的使用，了解Python中的内置函数和标准模块。面向对象编程：学习面向对象编程的基本概念及其在Python中的实现方式。异常处理：掌握Python中的异常处理机制，学会如何处理和抛出异常。文件操作：了解如何在Python中进行文件读写操作。数据结构和算法：学习Python中的常见数据结构和算法，如列表、字典、集合、排序、搜索等。GU

2023-04-11 23:15:14 63

原创大数据集群规划、规模、版本、端口号

3.客户端尽量放在1到2台服务器上，一是风险隔离，导致集群内部受到不必要的干扰。2）每条日志1K左右，每天1亿条： 100000000/1024/1024 = 约100G。假设每台服务器8T磁盘，128G内存。3）一年内不扩容服务器来算： 100G * 360天 = 约36T。5）预留20%~30%Buf = 108T/0.7 = 154T。2.kafka、ZK、Flume传输数据比较紧密的放在一起。1）每台日活跃用户100万，每人一天平均100条： 100万。6）算到这: 约 8T*20 台服务器。

2023-04-11 22:46:33 501

原创 Flink是什么

其中，JobManager和TaskManager进程是Flink的核心进程，负责实际的任务执行和作业管理。Flink是一个分布式的、高性能的、可伸缩的、容错的流处理引擎，它支持批处理和流处理，并提供了丰富的API和库，是实时数据处理的理想选择。JobManager进程：负责接收提交的作业并分配任务，监控作业的执行情况，并在节点故障时重新分配任务；JobManager：负责接收提交的作业并分配任务，监控作业的执行情况，并在节点故障时重新分配任务；3.数据流的状态，包括数据的读取速率、处理速率、输出速率等；

2023-04-11 22:15:01 3480

原创 PySpark中RDD的转换操作(转换算子)

在PySpark中，转换操作（转换算子）返回的结果通常是一个RDD对象或DataFrame对象或迭代器对象，具体返回类型取决于转换操作（转换算子）的类型和参数。在PySpark中，RDD提供了多种转换操作（转换算子），用于对元素进行转换和操作。函数来判断转换操作（转换算子）的返回类型，并使用相应的方法来处理返回结果。如果需要确定转换操作（转换算子）的返回类型，可以使用Python内置的。类似地，对于一个DataFrame对象，可以使用以下代码来判断。例如，对于一个包含整数的RDD，可以使用以下代码来判断。

2023-04-11 12:00:00 896

原创 Spark SQL实现医疗行业数据分析(Python)

【代码】Spark SQL实现医疗行业数据分析(Python)

2023-04-11 08:45:00 265

原创 PySpark中RDD的行动操作(行动算子)

以上是pyspark中所有行动操作（行动算子）的详细说明，了解这些操作可以帮助理解如何使用PySpark进行数据处理和分析。方法将结果转换为包含一个元素的DataSet对象，从而得到一个DataSet对象，其中只包含一个名为。方法将结果转换为包含该整数的RDD对象，从而得到一个RDD对象，其中只包含一个元素6。例如，对于一个包含整数的RDD，可以使用以下代码来判断。对于一个包含字符串的RDD，可以使用以下代码来判断。的列，该列的值为DataFrame中的行数。在上面的代码中，我们使用。

2023-04-11 00:15:00 543

原创什么是HBase

HBase是一个基于Hadoop的分布式列式存储系统，可以存储非结构化和半结构化的大数据，具有高可用性、高扩展性、高性能等特点，常用于大规模实时数据处理。

2023-04-10 23:45:36 1666

原创 HQL中ACID表

在Hive中，ACID（原子性、一致性、隔离性和持久性）表是指支持事务的表。ACID表在执行INSERT、UPDATE、DELETE等操作时，会自动创建一个事务，确保操作的原子性、一致性、隔离性和持久性。同时，ACID表还支持快照读取和多版本并发控制等功能，可以提高数据的访问效率和安全性。

2023-04-10 23:34:02 154

原创 HQL大杂烩

HQL（Hive Query Language）是Hive提供的一种类SQL的查询语言，用于在Hive中查询和处理数据。HQL语言类似于SQL语言，支持常用的SQL查询操作，比如SELECT、FROM、WHERE、GROUP BY、ORDER BY等，同时也支持Hive特有的查询操作，比如分区查询、桶排序等。Hive是一个基于Hadoop的数据仓库工具，可以将结构化数据映射到Hadoop分布式文件系统（HDFS）上，并提供类SQL查询接口，用户可以使用HQL语言查询和分析数据。

2023-04-10 23:28:31 229

原创 Spark SQL是什么

1.Spark SQL应用程序的运行状态：可以通过Spark SQL的监控工具来实时监控应用程序的运行状态，包括任务的执行情况、资源的使用情况等。运维人员：管理Spark集群的部署、维护和安全性，包括Spark SQL的配置、监控和优化等，以保证Spark SQL的正常运行和安全性。2.Spark SQL应用程序的性能：可以通过Spark SQL的监控工具来监控应用程序的性能指标，包括任务的执行时间、吞吐量等。Executor进程：负责执行Spark SQL应用程序中的任务，包括数据的读取、处理和写入等。

2023-04-10 23:06:29 353

原创什么是Presto

Presto是一个分布式SQL查询引擎，由Facebook开发并开源。它广泛应用于互联网、金融、电信等领域，是一个非常优秀的分布式数据处理引擎。

2023-04-10 23:02:36 308

原创 K8S的DaemonSet部署和安全删除

这些步骤将最小化风险地删除DaemonSet以及它的所有Pods、Persistent Volumes和Service。暂停更新可以确保在删除DaemonSet之前不会启动新的Pods，从而减少删除DaemonSet的风险。

2023-04-10 23:00:52 752

原创 Spark SQL实现数据脱敏和加密(python)

下面代码实现对姓名和电话号码的脱敏：使用Spark的函数和函数对姓名和电话号码进行了脱敏，并将自定义的脱敏函数和注册为UDF函数。然后，在读取数据后，使用函数将脱敏后的姓名和电话号码替换原有的列，并将脱敏后的数据保存到目标路径。Spark SQL的Python版也可以使用库来实现数据加密。下面实现对姓名和电话号码的加密：上述代码中，使用Spark SQL的函数对姓名进行了加密，使用自定义的加密函数对电话号码进行加密，并将加密后的数据保存到目标路径。其中，加密函数使用了库中的类，该类提供了AES加密算法的

2023-04-10 22:58:56 537

空空如也

这个帖子的超链接为什么打不开了？