自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 实训第三天

通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。数据仓库层(DW):也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。执行延迟高,不适合做数据的实时处理,但适合做海量数据的离线处理。

2024-04-24 21:07:11 1694 2

原创 了解hdfs

NameNode:NameNode是HDFS的主节点,负责管理文件系统的命名空间,包括文件和目录的元数据信息。总的来说,HDFS的架构是基于主从结构的,其中NameNode负责管理文件系统的元数据,DataNode负责存储实际的文件数据,而Secondary NameNode用于辅助NameNode进行元数据的检查点。文件块(block):HDFS将大文件分割成固定大小的文件块(通常是128MB或256MB),并将文件块存储在不同的DataNode节点上。掌握hdfs的shell命令。

2024-04-23 20:22:37 583

原创 认识hadoop

总的来说,如果有一个很大的任务,单机很难完成,所以要用到分布式,就是有一台 master机子(服务器),有很多 slave机子(服务器),然后 masters给 slaves分配任务,把一个大任务分成很多小任务,给每个 slave去完成,然后 master机子收集每个 slave的结果,处理得出最终结果, hadoop就是一个完成了这个事情的框架。Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。

2024-04-22 22:24:04 438

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除