大数据
文章平均质量分 93
希昂的学习日记
种一棵树最好的时间是十年前,其次是现在
展开
-
Hadoop-Yarn
思考:1)如何管理集群资源?2)如何给任务合理分配资源?Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台。而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。原创 2024-04-05 09:00:00 · 1224 阅读 · 0 评论 -
Hadoop-MapReduce
1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2)为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。3)为什么不用 Java 的序列化。原创 2024-04-05 08:45:00 · 1221 阅读 · 0 评论 -
Hadoop-HDFS
随着数据量越来越大,在一个服务器上存不下所有的数据,那么就分配到更多的服务器管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的使用场景:适合一次写入,多次读出的场景。原创 2024-04-05 08:30:00 · 1592 阅读 · 0 评论 -
Hadoop-入门
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决:海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。HDFS架构概述1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。原创 2024-04-05 00:18:16 · 1569 阅读 · 0 评论 -
大数据概论
相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。7、房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。经典案例,纸尿布+啤酒。原创 2024-04-05 08:00:00 · 388 阅读 · 0 评论 -
ZooKeeper
Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。Zookeeper工作机制Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。原创 2023-08-03 00:28:41 · 1423 阅读 · 0 评论