自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(70)
  • 收藏
  • 关注

原创 大数据海中的鱼(大目录)

大数据组件和概念,作为目录使用

2023-04-06 22:33:47 104

原创 Hadoop权限管理使用什么组件(HA + Kerberos)

综上所述,Hadoop 权限管理主要使用 Hadoop Authorization (HA) 和 Apache Ranger 两个组件,它们分别提供了基于权限的访问控制和细粒度的权限管理功能,可以保护 Hadoop 中的数据安全。是 Hadoop 中的一种基于权限的访问控制机制,通过 HA,可以将用户和用户组与 Hadoop 文件系统中的权限进行映射,从而对其访问进行限制。来管理 Hadoop 文件系统中的权限,支持基于用户、用户组和访问类型(如读、写、执行等)的权限控制。

2023-04-21 00:18:29 424 1

原创 DolphinScheduler操作步骤

2)上传工作流所需脚本 : 将工作流所需的所有脚本上传到资源中心scripts路径下。(1)切换到 admin 用户,在环境管理下创建环境。(1)在gmall项目下创建工作流。(2)在环境配置中添加如下内容。(2)各任务节点配置如下。

2023-04-19 21:31:33 376

原创 DW每层设计要点

(3)DWS层表名的命名规范为dws_数据域_统计粒度_业务过程_统计周期(1d/nd/td)(3)DWD层表名的命名规范为dwd_数据域_表名_单分区增量全量标识(inc/full)(3)ODS层表名的命名规范为:ods_表名_单分区增量全量标识(inc/full)。(3)DIM层表名的命名规范为dim_表名_全量表或者拉链表标识(full/zip)(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。(1)DWD层的设计依据是维度建模理论,该层存储维度模型的事实表。

2023-04-19 21:13:04 451

原创 HQL中的JOIN操作

Hive支持多种JOIN方式将多个表连接起来,从而进行复杂的查询操作,包括INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN、CROSS JOIN和SELF JOIN等。在Hive中,可以使用SELF JOIN方式进行递归查询,从而查询出某个节点的所有子节点或父节点等信息。其中,子查询部分查询出初始条件下的员工信息,使用UNION ALL和JOIN子查询部分进行递归查询。查询结果中,包含每个下属员工的姓名和深度等信息,深度表示该员工相对于初始条件员工的层数。

2023-04-19 00:15:00 687

原创 Python文件操作

在 Python 中清空某个文件有多种方法,可以根据不同的需求选择不同的方法。需要注意的是,以上方法都是清空文件内容,而不是删除文件本身。

2023-04-19 00:00:00 78

原创 什么是Kubernetes

Kubernetes是一个开源的容器编排引擎,用于自动化部署、扩展和管理容器化应用程序。它提供了一种平台无关的方式来管理容器化应用程序,使开发人员可以专注于编写应用程序,而不必担心底层基础架构的细节。Kubernetes是一个开源的容器编排引擎,用于自动化部署、扩展和管理容器化应用程序。它由Master节点和多个Node节点组成,Master节点用于管理和监控节点、容器和应用程序,Node节点用于运行容器和应用程序。在使用Kubernetes时,需要监控相关指标,以确保应用程序的稳定和高效运行。

2023-04-17 00:30:00 161

原创 大数据离线分析的完整流程

大数据分析大概流程,和对应的组件

2023-04-16 00:15:00 1447

原创 什么是Tableau(BI工具)

Tableau是一款商业智能工具,用于数据可视化和分析。它可以通过简单易用的界面和交互式的视图来探索和分析数据,帮助用户快速发现数据中的模式和趋势,并支持数据驱动的决策和行动。

2023-04-16 00:00:00 439

原创 Kettle是什么(ETL工具)

它可以用于从不同的数据源中提取数据、进行转换和加载到目标数据源中。Kettle支持多种数据源的操作,如关系型数据库、NoSQL数据库、文件等,同时也支持多种数据操作任务的实现,如数据清洗、数据整合、数据分析等。

2023-04-15 14:15:00 4237 1

原创 什么是Sqoop

开发人员:编写Sqoop导入导出任务,包括数据源的选择、数据转换和数据的输出方式,以实现数据在Hadoop和关系型数据库之间的传输。Sqoop是Hadoop生态系统中的一个重要组件,它可以帮助用户轻松地将现有的数据导入到Hadoop中,方便后续的数据分析和处理。此外,Sqoop是Hadoop生态系统中的一个重要组件,它可以与Hadoop集成使用,提高Hadoop的数据处理能力。运维人员:监控Sqoop的运行状态,包括任务的执行情况、数据传输速率等,以及对Sqoop进行故障排除和性能优化。

2023-04-15 00:15:00 956

原创 什么是Pipeline(和大数据无关)

Pipeline是一种软件开发流程,它将软件开发过程中的不同阶段(如编译、测试、部署等)自动化并连接起来,从而实现快速、可靠的软件交付。Pipeline将软件开发过程中的每个步骤都定义为一个阶段,并在每个阶段中执行一系列的任务,以达到自动化流程的目的。Pipeline是一种自动化的软件开发流程,它将软件开发过程中的不同阶段(如编译、测试、部署等)自动化并连接起来,从而实现快速、可靠的软件交付。在使用Pipeline时,需要监控相关指标,以确保Pipeline的稳定和高效运行。

2023-04-14 00:15:00 1357

原创 什么是Kafka

Kafka是一款高吞吐量的分布式消息队列系统,能够处理大量的实时数据。它可以将数据持久化到磁盘,同时支持数据的发布和订阅,是一种可靠的、高效的消息传递系统。Kafka是一款高吞吐量的分布式消息队列系统,支持消息的发布和订阅,并提供了多种客户端库和API。在使用Kafka时,需要配置Producer和Consumer以及Kafka Broker,并监控相关指标,以确保Kafka集群的稳定和高效运行。

2023-04-13 12:45:00 396

原创 什么是Prometheus

Prometheus是一款开源的监控和告警系统,可以对分布式系统进行监控和警报。它是一个独立于存储的时序数据管理系统,可帮助您轻松地查询、分析和警报有关应用程序的数据。Prometheus具有强大的查询语言和可视化工具,可帮助您快速了解系统的运行状况。云原生可使用睿智云(付费)。

2023-04-13 00:15:00 303

原创 Hadoop集群中常用组件的命令(后续补充)

提交Spark应用程序:spark-submit --class com.example.Application /path/to/app.jar arg1 arg2。上传本地文件到HDFS:hdfs dfs -put /path/to/local/file /path/to/hdfs/directory。下载HDFS文件到本地:hdfs dfs -get /path/to/hdfs/file /path/to/local/directory。

2023-04-12 00:15:00 402

原创 Python核心编程——保护性代码

在实际工作中,个人编写的函数通常需要对输入的数据保护性代码的校验,以免你写的代码抛异常。无论如何,对输入进行验证是保护性编程的重要步骤之一,可以确保程序的正确性和可靠性。保护性编程是一种编写代码的方法,目的是尽可能减少代码中可能出现的错误和漏洞。、空字符串、空列表、空字典、零值、非空字符串、非空列表和非空字典来测试函数,并输出相应的信息。我们使用整数、浮点数、字符串、列表和字典来测试函数,并输出它们的数据类型和相应的信息。最后,如果用户输入不为空,则输出用户输入,并可以在这里添加您想要执行的代码。

2023-04-11 23:31:48 269

原创 Python基础(先写个框架)

Python核心编程语言学习内容(明白要学什么)Python基础语法:了解Python的基本语法,如变量、数据类型、运算符、控制语句等。函数和模块:掌握函数和模块的使用,了解Python中的内置函数和标准模块。面向对象编程:学习面向对象编程的基本概念及其在Python中的实现方式。异常处理:掌握Python中的异常处理机制,学会如何处理和抛出异常。文件操作:了解如何在Python中进行文件读写操作。数据结构和算法:学习Python中的常见数据结构和算法,如列表、字典、集合、排序、搜索等。GU

2023-04-11 23:15:14 63

原创 大数据集群规划、规模、版本、端口号

3.客户端尽量放在1到2台服务器上,一是风险隔离,导致集群内部受到不必要的干扰。2)每条日志1K左右,每天1亿条: 100000000/1024/1024 = 约100G。假设每台服务器8T磁盘,128G内存。3)一年内不扩容服务器来算: 100G * 360天 = 约36T。5)预留20%~30%Buf = 108T/0.7 = 154T。2.kafka、ZK、Flume传输数据比较紧密的放在一起。1)每台日活跃用户100万,每人一天平均100条: 100万。6)算到这: 约 8T*20 台服务器。

2023-04-11 22:46:33 501

原创 Flink是什么

其中,JobManager和TaskManager进程是Flink的核心进程,负责实际的任务执行和作业管理。Flink是一个分布式的、高性能的、可伸缩的、容错的流处理引擎,它支持批处理和流处理,并提供了丰富的API和库,是实时数据处理的理想选择。JobManager进程:负责接收提交的作业并分配任务,监控作业的执行情况,并在节点故障时重新分配任务;JobManager:负责接收提交的作业并分配任务,监控作业的执行情况,并在节点故障时重新分配任务;3.数据流的状态,包括数据的读取速率、处理速率、输出速率等;

2023-04-11 22:15:01 3480

原创 PySpark中RDD的转换操作(转换算子)

在PySpark中,转换操作(转换算子)返回的结果通常是一个RDD对象或DataFrame对象或迭代器对象,具体返回类型取决于转换操作(转换算子)的类型和参数。在PySpark中,RDD提供了多种转换操作(转换算子),用于对元素进行转换和操作。函数来判断转换操作(转换算子)的返回类型,并使用相应的方法来处理返回结果。如果需要确定转换操作(转换算子)的返回类型,可以使用Python内置的。类似地,对于一个DataFrame对象,可以使用以下代码来判断。例如,对于一个包含整数的RDD,可以使用以下代码来判断。

2023-04-11 12:00:00 896

原创 Spark SQL实现医疗行业数据分析(Python)

【代码】Spark SQL实现医疗行业数据分析(Python)

2023-04-11 08:45:00 265

原创 PySpark中RDD的行动操作(行动算子)

以上是pyspark中所有行动操作(行动算子)的详细说明,了解这些操作可以帮助理解如何使用PySpark进行数据处理和分析。方法将结果转换为包含一个元素的DataSet对象,从而得到一个DataSet对象,其中只包含一个名为。方法将结果转换为包含该整数的RDD对象,从而得到一个RDD对象,其中只包含一个元素6。例如,对于一个包含整数的RDD,可以使用以下代码来判断。对于一个包含字符串的RDD,可以使用以下代码来判断。的列,该列的值为DataFrame中的行数。在上面的代码中,我们使用。

2023-04-11 00:15:00 543

原创 什么是HBase

HBase是一个基于Hadoop的分布式列式存储系统,可以存储非结构化和半结构化的大数据,具有高可用性、高扩展性、高性能等特点,常用于大规模实时数据处理。

2023-04-10 23:45:36 1666

原创 HQL中ACID表

在Hive中,ACID(原子性、一致性、隔离性和持久性)表是指支持事务的表。ACID表在执行INSERT、UPDATE、DELETE等操作时,会自动创建一个事务,确保操作的原子性、一致性、隔离性和持久性。同时,ACID表还支持快照读取和多版本并发控制等功能,可以提高数据的访问效率和安全性。

2023-04-10 23:34:02 154

原创 HQL大杂烩

HQL(Hive Query Language)是Hive提供的一种类SQL的查询语言,用于在Hive中查询和处理数据。HQL语言类似于SQL语言,支持常用的SQL查询操作,比如SELECT、FROM、WHERE、GROUP BY、ORDER BY等,同时也支持Hive特有的查询操作,比如分区查询、桶排序等。Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据映射到Hadoop分布式文件系统(HDFS)上,并提供类SQL查询接口,用户可以使用HQL语言查询和分析数据。

2023-04-10 23:28:31 229

原创 Spark SQL是什么

1.Spark SQL应用程序的运行状态:可以通过Spark SQL的监控工具来实时监控应用程序的运行状态,包括任务的执行情况、资源的使用情况等。运维人员:管理Spark集群的部署、维护和安全性,包括Spark SQL的配置、监控和优化等,以保证Spark SQL的正常运行和安全性。2.Spark SQL应用程序的性能:可以通过Spark SQL的监控工具来监控应用程序的性能指标,包括任务的执行时间、吞吐量等。Executor进程:负责执行Spark SQL应用程序中的任务,包括数据的读取、处理和写入等。

2023-04-10 23:06:29 353

原创 什么是Presto

Presto是一个分布式SQL查询引擎,由Facebook开发并开源。它广泛应用于互联网、金融、电信等领域,是一个非常优秀的分布式数据处理引擎。

2023-04-10 23:02:36 308

原创 K8S的DaemonSet部署和安全删除

这些步骤将最小化风险地删除DaemonSet以及它的所有Pods、Persistent Volumes和Service。暂停更新可以确保在删除DaemonSet之前不会启动新的Pods,从而减少删除DaemonSet的风险。

2023-04-10 23:00:52 752

原创 Spark SQL实现数据脱敏和加密(python)

下面代码实现对姓名和电话号码的脱敏:使用Spark的函数和函数对姓名和电话号码进行了脱敏,并将自定义的脱敏函数和注册为UDF函数。然后,在读取数据后,使用函数将脱敏后的姓名和电话号码替换原有的列,并将脱敏后的数据保存到目标路径。Spark SQL的Python版也可以使用库来实现数据加密。下面实现对姓名和电话号码的加密:上述代码中,使用Spark SQL的函数对姓名进行了加密,使用自定义的加密函数对电话号码进行加密,并将加密后的数据保存到目标路径。其中,加密函数使用了库中的类,该类提供了AES加密算法的

2023-04-10 22:58:56 537

原创 大数据环境中,已经有了HDFS了为什么还需要HBase 系统

HBase系统支持快速的随机读取和聚合查询,并且还可以与Hadoop生态系统中的其他工具(如Hive、Pig和Spark)集成,使得它能够进行实时的数据分析和处理。,适合存储海量的非结构化和半结构化数据,并提供了快速的、实时的访问和查询功能。因此,当需要快速读写海量非结构化数据、需要灵活的数据模型、需要高可扩展性和容错性、以及需要实时查询和分析时,HBase系统会比HDFS更适合。:HBase采用了面向列的数据模型,支持动态的列族和列的添加、删除和修改,使得它能够存储和处理非常灵活的数据结构。

2023-04-10 22:53:38 772

原创 Spark处理非结构化数据的思路(python实现)

我们首先初始化了Spark环境,然后使用Spark的textFile方法将文本数据导入到Spark中进行处理。然后使用sklearn库的TF-IDF算法进行特征提取,并使用KMeans算法进行数据聚类分析。最后,使用Matplotlib库生成了聚类结果的散点图。接着使用NLTK库对文本数据进行清洗,去除了停用词。

2023-04-10 22:49:47 454

原创 Spark SQL实现物流行业数据分析(Python)

【代码】Spark SQL实现物流行业数据分析(Python)

2023-04-10 00:15:00 239

原创 什么是Flume

Flume是Apache基金会下的一个分布式、可靠、高可用的日志采集系统,主要用于从不同的数据源(如Web服务器、数据库、应用程序等)中采集大量的数据,并将其传输到Hadoop或其他存储系统中。Flume的主要作用是实现大规模数据采集和传输,实现数据的实时处理和分析,从而为企业提供更好的业务决策支持。

2023-04-09 23:58:52 407

原创 jps命令

当Hadoop集群中出现故障时,可以通过jps命令来查找故障的进程,并排除故障。

2023-04-09 23:53:28 4449

原创 什么是JMX

JMX(Java Management Extensions)是一种Java平台的管理和监控API,它提供了一种可插拔的框架,使得Java应用程序、设备、系统等都可以通过一个统一的接口进行管理和监控。JMX是一种Java平台的管理和监控API,它提供了一种可插拔的框架,使得Java应用程序、设备、系统等都可以通过一个统一的接口进行管理和监控。在使用JMX时,需要定义和注册MBean,启动MBean Server和MBean Client,并监控相关指标,以确保Java应用程序的稳定和高效运行。

2023-04-09 23:48:31 370

原创 JVM是什么

使用JIT编译器:使用JIT编译器可以优化JVM的执行速度,将Java字节码编译成本地机器代码,以提高程序的执行效率。使用合适的数据结构:使用合适的数据结构可以减少JVM的内存使用率和CPU使用率,以便提高程序的性能和响应速度。调整GC策略:调整GC策略可以优化JVM的垃圾回收,包括选择合适的GC算法、调整GC的频率和GC的参数等。运维人员:负责管理JVM的部署、维护和安全性,包括JVM的配置、监控和优化等。避免创建过多的对象:避免创建过多的对象可以减少GC的负载,提高程序的执行效率。

2023-04-09 23:45:16 852

原创 什么是Power BI

BI管理员:管理Power BI的部署、维护和安全性,包括用户管理、数据源管理和报表发布等,以保证Power BI的正常运行和数据的安全性。数据分析师:使用Power BI进行数据分析和可视化,包括数据的导入、清洗、转换、建模和报表设计等,以实现数据的探索和发现。IT管理员:管理Power BI所依赖的IT基础设施,包括网络、服务器、存储等,以保证Power BI的性能和可靠性。数据分析师:负责使用Power BI进行数据分析和可视化,包括数据的导入、清洗、转换、建模和报表设计等。

2023-04-09 23:42:19 2413

原创 Spark SQL实现企业数据仓库构建(Python)

【代码】Spark SQL实现企业数据仓库构建(Python)

2023-04-09 12:00:00 285

原创 Spark SQL实现能源行业数据分析(Python)

【代码】Spark SQL实现能源行业数据分析(Python)

2023-04-09 12:00:00 120

原创 Spark SQL进行智能推荐系统(Python)

【代码】Spark SQL进行智能推荐系统(Python)

2023-04-09 00:15:00 313

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除