自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 黑马程序员HadoopDay4

原始数据内容数据来源: 聊天业务系统中导出的2021年11月01日一天24小时的用户聊天数据,以TSV文本形式存储在文件中问题1:当前数据中,有一些数据的字段为空, 不是合法数据问题2:需求中,需要统计每天、每个小时的消息量, 但是数据中没有天和小时字段,只有整体时间字段,不好处理问题3:需求中,需要对经度和维度构建地区的可视化地图, 但是数据中GPS经纬度为一个字段,不好处理需求1:对字段为空的不合法数据进行过滤• Where过滤。

2024-04-25 20:06:24 234

原创 黑马程序员HadoopDay3

也可以称面向用户交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常进行增删改查操作。没有专门的临时数据库(ODS),这意味着数据会立即加载到单一的集中存储库中,数据在数据仓库系统中直接进行转换,然后进行分析。:此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放:为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。:也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。根据报表、专题分析需求而计算生成的数据。

2024-04-24 22:49:29 612

原创 黑马程序员HadoopDay2

Metastore:即元数据存储服务,作用是:客户端连接metastore服务,metastore再去连接MySQL等数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL等数据库的用户名和密码,只需要连接metastore服务即可。大数据体系中充斥着非常多的统计分析场景,所以,使用SQL去处理数据,在大数据中也是有极大的需求的。➢ 对HDFS的操作命令类似于Linux的shell对文件的操作,如ls、mkdir、rm等。

2024-04-23 20:59:14 801 3

原创 黑马程序员HadoopDay1

大数据框架,大多数的基础架构上,都是符合:中心化模式的。即:有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱。SecondaryNameNode:NameNode的辅助,是一个独立进程,主要帮助NameNode完成元数据整理工作(打杂)。NameNode:HDFS系统的主角色,是一个独立的进程。DataNode:HDFS系统的从角色,是一个独立进程,主要负责数据的存储,即存入数据和取出数据。大数据体系中,分布式的调度主要有2类架构模式: 去中心化模式、中心化模式。

2024-04-22 21:17:30 651 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除