
大数据
文章平均质量分 85
# 大数据的特点
1.Volume(大量)
2.Velocity(高速)
3.Variety(多样)
4.Value(低价值密度)
liudachu
当你的才华撑还不起你的野心时,那你就应该静下心来渎书
展开
-
Centos固定IP配置
对安装好的VMware进行网络配置,方便虚拟机连接网络,本次设置建议选择NAT模式,需要宿主机的Windows和虚拟机的Linux能够进行网络连接,同时虚拟机的Linux可以通过宿主机的Windows进入互联网。1)修改网络IP地址为静态IP地址,避免IP地址经常变化,从而方便节点服务器间的互相通信。按如上格式修改IP信息(地址,网关,DNS服务器),修改完毕后全部点击确定退出。2)以下加粗的项必须修改,有值的按照下面的值修改,没有该项的则需要增加。然后全部点击确定,VMware的网络配置就好了。原创 2025-03-14 11:52:47 · 841 阅读 · 0 评论 -
Yarn 资源调度器概述
Yarn资源调度器概述思考:1)如何管理集群资源?2)如何给任务合理分配资源?Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1、Yarn基础架构Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。2、Yarn工作机制 (1)MR程序提交到客户端所在的节点。 (2)Ya转载 2022-04-25 10:57:37 · 1230 阅读 · 0 评论 -
Hadoop数据压缩
Hadoop数据压缩1、概述1)压缩的好处和坏处压缩的优点:以减少磁盘IO、减少磁盘存储空间。压缩的缺点:增加CPU开销。2)压缩原则(1)运算密集型的Job,少用压缩(2)IO密集型的Job,多用压缩2、MR支持的压缩编码1)压缩算法对比介绍压缩格式Hadoop自带?算法文件扩展名是否可切片换成压缩格式后,原来的程序是否需要修改DEFLATE是,直接使用DEFLATE.deflate否和文本处理一样,不需要修改Gzip是,直接使用DEFL原创 2022-03-17 12:18:31 · 248 阅读 · 0 评论 -
MapReduce 框架原理
MapReduce 框架原理1、InputFormat 数据输入1.1 切片与MapTask并行度决定机制1)问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?2)MapTask并行度决定机制数据块: Block是HDFS物理上把数据分成一块一块。原创 2022-03-17 12:11:58 · 3235 阅读 · 0 评论 -
Hadoop序列化
Hadoop序列化1、序列化概述1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2)为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。3)为什么不用Java的序列化Java原创 2022-02-15 09:40:30 · 692 阅读 · 0 评论 -
MapReduce概述
1、MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2 MapReduce优缺点优点1)MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写一个简单原创 2022-02-15 09:34:45 · 552 阅读 · 0 评论 -
HDFS概述
HDFS概述1、HDFS 产出背景及定义1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2)HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色原创 2022-02-09 15:16:18 · 1070 阅读 · 0 评论 -
Hadoop集群搭建
Hadoop运行环境搭建1、模板虚拟机环境准备安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G「自定义安装CentOS全过程」https://www.aliyundrive.com/s/QAibtB7RwxC安装epel-release注:Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库,大原创 2022-02-07 17:02:42 · 1352 阅读 · 0 评论 -
Hadoop概述
Hadoop概述1、 简单介绍Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题。广义上说,Hadoop通常是指一个更广泛的概念—Hadoop生态圈。2 、Hadoop优势(4高)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处原创 2022-01-21 15:43:27 · 1686 阅读 · 0 评论 -
大数据概论
大数据概念大数据(Big Data) :指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决,海量数据的 采集、存储、分析计算问题大数据的特点1.Volume(大量)2.Velocity(高速)3.Variety(多样)4.Value(低价值密度)大数据部门间业务流程分析大数据部门内组织结构...原创 2021-10-19 20:11:16 · 126 阅读 · 0 评论