自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Hadoop单机版自动化部署脚本

【代码】Hadoop单机版自动化部署脚本。

2023-11-21 11:30:32 147

原创 解决Exception: Java gateway process exited before sending its port number

直接上代码import os# 指定绝对路径。

2023-11-20 17:22:45 409 1

原创 Hive数仓分层理论(一)

Hive数仓分层理论是一种常用的数据仓库架构方法,通过将数据按照不同层次进行组织和管理,实现了数据的隔离、安全性、一致性和可重用性。原子层、集成层、暖层和服务层分别承担着不同的角色和功能,满足了不同层次的需求和目标。在实施数仓分层时,需要考虑数据流程设计、数据治理、计算和存储优化、安全与权限管理以及数据集成与应用开发等方面的策略和实施。通过合理的分层设计和管理,可以构建一个高效、可靠的数据仓库,为企业的决策和业务发展提供有力支持。

2023-11-01 16:55:20 332 1

原创 PySpark如何对接Kafka,以及报错解决

直接上代码。

2023-10-16 14:39:03 625 1

原创 Hive解析HTTP访问日志(拒绝废话)

Hive解析HTTP访问日志(拒绝废话)

2023-10-07 12:23:32 76 1

原创 大数据技术之Hive(3)PyHive

PyHive 是一组 Python DB-API 和 SQLAlchemy 接口,可用于 Presto 和 Hive。它为 Python 提供了一个与 Presto 和 Hive 进行交互的平台,使得数据分析师和工程师可以更方便地进行数据处理和分析。

2023-04-12 11:56:15 1309

原创 大数据技术Hive进阶(2)----分区表&开窗函数&自定义函数

Hive允许用户编写自定义函数(UDF),以实现一些特定的功能。用户可以使用Java或Python等语言开发UDF,并通过Hive的扩展机制进行注册和使用。注册UDF后,即可以在SQL查询中使用。以上是Hive的一些进阶操作,它们可以帮助用户更高效地管理和分析大数据,下面看一下这些操作的实例。

2023-04-11 11:47:28 129

原创 大数据技术之Hive数仓(1)

Hive是由Facebook开发的一款数据仓库工具,于2007年发布,并于2008年开源。随着时间的推移,Hive不断发展壮大,其发展史如下:[1][] :2008年10月,Facebook宣布将Hive作为开源项目贡献给Apache软件基金会。[2][] :2010年,Hive正式获得Apache顶级项目的地位。[3][] :2012年,Hive 0.9版本发布,引入了Stinger计划,旨在通过引入Tez作为执行引擎和进行优化以提高性能。此时,Hive开始被广泛用于企业级数据仓库和商业智能应用。

2023-04-11 11:34:01 177

原创 大数据技术Hadoop之分布式计算框架MapReduce

MapReduce是一种分布式计算框架,它可以将大规模的数据集分成许多小的数据块,然后在分布式计算集群中进行并行处理。MapReduce的核心思想是将数据处理过程分为两个阶段:Map和Reduce。Map阶段将输入数据映射为一系列的键值对,Reduce阶段将Map阶段输出的键值对进行合并和归约。Map阶段的输入数据可以是任意格式的数据,例如文本、图片、音频等。Map阶段的处理过程可以是任意的计算过程,例如数据清洗、数据过滤、数据转换等。

2023-03-27 13:42:30 793

原创 大数据之安装Hadoop单机伪分布(新手上路必备)三

1,安装vmware虚拟机,Linux版本可以自行选择2,安装ubuntu虚拟机 2.1 下载iso镜像 百度搜索 中国镜像站 随便哪个网页都可以,各大公司,各大高校; 2.2 安装ubuntu虚拟机;3,hadoop的安装模式 官方帮助文档https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation...

2022-03-30 13:48:23 2741 2

原创 大数据之分布式文件系统HDFS(新手上路必备)二

1.1HDFS 的架构 HDFS:Hadoop 中的分布式文件系统Hadoop Distributed File System,存储和管理海量数据文件系统( File System ):为了管理文件,在存储系统上建立的一些文件组织和结构,主要包括文件目录和文件本身分布式(Distributed):由多台服务器组成 ,每台服务器执行不同的功能,不同的功能配合起来形成完整的功能1.2 HDFS 的架构 HDF...

2022-03-20 13:03:39 2503

原创 大数据之Hadoop概念导论(新手上路必备)一

目录第一章:什么是大数据1.什么是大数据,大数据是什么?2,什么级别称之为大数据?3,大数据发展速度离不开硬件的支撑:4,大数据的4v特征:5,大数据带来的挑战:6,大数据生态圈技术:7,云计算关键技术:8. 物联网关键技术:9.大数据 云计算 人工智能 之间关系第二章,大数据处理架构 hadoop1,hadoop是什么?2,hadoop的优点:3,hadoop的缺点:4,hadoop核心组件- hdfs:5,hadoop核心组件- MapR.

2022-03-13 14:38:48 2230 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除