自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 认知实习第三天

大数据体系中充斥着非常多的统计分析场景所以,用SQL的去处理数据,在大数据中也是有极大的需求的。数据库是为捕获数据而设计,数据仓库是为分析数据而设计数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的用户表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析。为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。数据仓库层(DW公司):也称为细节层,DW公司层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。

2024-04-24 22:09:40 849 4

原创 认知实习第二天

Pig可作为Hive的替代工具,是一种数据流语言和运行环境,适合用于在Hadoop平台上查询半结构化数据集,用于与ETL过程的一部分,即将外部数据装载到Hadoop集群中,转换为用户需要的数据格式;HBase是一个面向列的、分布式可伸缩的数据库,可提供数据的实时访问功能,而Hive只能处理静态数据,主要是BI报表数据,Hive的初衷是为减少复杂MR应用程序的编写工作,HBase则是为了实现对数据的实时访问。存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改。文件系统可存储超大文件,时效性稍差。

2024-04-23 22:06:19 884 3

原创 黑马程序员认知实习第一天

在2000年后,互联网上的商业行为剧增,在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的。所谓集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机。我们学习的Hadoop框架,就是一个典型的主从模式(中心化模式)架构的技术框架。有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱。一个餐厅的厨房有三个人,一个人买菜、一个人切菜、一个人炒菜,效率提高了!分布式:分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事。

2024-04-22 21:45:23 371 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除