大数据
文章平均质量分 91
yxyibb
文艺程序媛
展开
-
大数据-学习实践-5企业级解决方案
MapReduce原理计算过程执行步骤wordcount案例日志查看:开启YARN日志聚合,启动historyServer进程程序扩展:去掉ReduceShuffle过程序列化Writable实现类特点源码分析性能优化小文件数据倾斜YARN资源管理:内存+CPU调度器:常用CapacityScheduler。原创 2023-03-16 17:42:19 · 863 阅读 · 0 评论 -
大数据-学习实践-2Hadoop
分布式存储+分布式计算选择CDH或HDP,方便运维管理2.0:YARN拆出来,资源管理平台3.0:Jaca支撑8及以上;支撑纠删码;支持多个NameNode;MR任务级本地优化;多重服务默认端口变更三大核心组件HDFS,分布式存储MapReduce,分布式计算Yarn ,集群资源管理及调度。原创 2023-03-15 09:57:01 · 284 阅读 · 0 评论 -
大数据-学习实践-4MapReduce
只需要磁盘IO,不需要网络IOMapReduce是一种分布式计算模型,用于搜索,解决海量数据计算Map+Reduce阶段。原创 2023-03-14 19:57:12 · 280 阅读 · 0 评论 -
大数据-学习实践-3HDFS
Hadoop之HDFS原创 2023-03-09 16:39:34 · 396 阅读 · 0 评论 -
大数据-学习实践-1相关Linux
大数据基础介绍,Linux使用原创 2023-02-13 12:15:11 · 384 阅读 · 0 评论 -
数分-理论-大数据3-HDFS
数分-理论-大数据3-HDFS(分布式文件系统)(数据分析系列)文章目录数分-理论-大数据3-HDFS(分布式文件系统)1知识点2具体内容2.1背景2.2简介2.3体系结构2.4存储原理2.4.1数据冗余存储2.4.2数据存储策略2.4.3数据错误与恢复2.5数据读写过程2.6安装应用3参考1知识点背景简介体系结构存储原理数据读写过程安装应用2具体内容2.1背景大数据->高效存储->分布式文件系统->HDFS分布式文件系统是管理网络中跨多台计算机存储的文件系原创 2022-01-07 14:29:55 · 706 阅读 · 0 评论 -
数分-理论-大数据4-HBase
数分-理论-大数据4-HBase(分布式数据库)(数据分析系列)文章目录数分-理论-大数据4-HBase(分布式数据库)1知识点2具体内容2.1Hadoop局限2.2简介2.3HBase数据模型2.3.1模型2.3.2相关概念2.3.3数据坐标2.3.4概念视图2.3.5物理视图2.3.6面向列存储2.4实现原理2.4.1HBase功能组件2.4.2表和Region2.4.3Region的定位2.5运行机制2.5.1HBase系统架构2.5.2Region服务器工作原理2.5.3Store的工作原理2.原创 2022-01-13 15:17:03 · 1478 阅读 · 0 评论 -
数分-理论-大数据5-MapReduce
数分-理论-大数据5-MapReduce(分布式并行编程模型)(数据分析系列)文章目录数分-理论-大数据5-MapReduce(分布式并行编程模型)1知识点2具体内容2.1分布式并行编程2.2简介2.3 MapReduce函数2.4工作流程2.5执行阶段2.6shuffle过程详解2.6.1过程2.6.2Map2.6.3Reduce2.7以WordCount例子,理解MapReduce2.7.1wordcount过程图2.7.2工作流程2.7.3数据分片2.7.4过程详解2.7.5MapReduce工作原创 2022-01-23 17:35:37 · 703 阅读 · 0 评论 -
数分-理论-大数据8-总结
数分-理论-大数据8-总结(数据分析系列)文章目录数分-理论-大数据8-总结1知识点2具体内容2.1框架综述2.2发展简史2.2.1萌芽(2003-2008)2.2.2快速进展(2009-2014)2.2.3成熟(2015-)2.2.4大数据分析引擎2.3结语3参考1知识点框架综述发展简史结语2具体内容2.1框架综述大数据框架在总体上分为存储引擎和计算分析引擎存储引擎通常用来存储海量数据分析引擎通常用来分析海量数据2.2发展简史2.2.1萌芽(2003-2008)Go原创 2022-01-25 21:23:36 · 1374 阅读 · 0 评论 -
数分-理论-大数据7-Spark
数分-理论-大数据7-Spark(大数据框架)(数据分析系列)文章目录数分-理论-大数据7-Spark(大数据框架)1知识点2具体内容2.1概述2.1.1起源2.1.2诞生2.1.3Spark与Hadoop、MapReduce、HDFS的关系2.1.4生态体系2.2编程模型-核心2.2.1RDD概述2.2.2RDD定义2.2.3RDD五大特性2.2.4RDD操作函数2.3架构原理2.3.1计算阶段2.3.2划分计算阶段2.3.3作业管理2.3.4执行过程2.4实战应用3参考1知识点概述编程模型原创 2022-01-25 20:49:42 · 2751 阅读 · 1 评论 -
数分-理论-大数据6-Hive
数分-理论-大数据6-Hive(数据仓库)(数据分析系列)文章目录数分-理论-大数据6-Hive(数据仓库)1知识点2具体内容2.1数据仓库2.1.1起源2.1.2数仓概念2.1.3体系结构2.1.4存在挑战2.2Hive基础2.2.1概述2.2.2背景2.2.3Hive与Hadoop生态系统2.2.4对比2.2.5模拟实现2.3Hive核心2.3.1数据类型2.3.2数据模型2.4Hive系统结构2.4.1用户接口模块2.4.2驱动模块Driver2.4.3元数据存储模块Metastore2.4.4H原创 2022-01-24 17:36:42 · 2754 阅读 · 0 评论 -
数分-理论-大数据2-Hadoop
数分-理论-大数据2-Hadoop(数据分析系列)文章目录数分-理论-大数据2-Hadoop1知识点2具体内容2.1发展2.2简介2.3项目架构2.4安装应用参考1知识点发展简介项目架构安装应用2具体内容2.1发展Lucene:文本搜索的函数库,全文检索引擎Nutch:建立在Lucene核心之上的网页搜索应用程序,加了网络爬虫和一些网页相关的功能GFS(2003):google为存储海量搜索数据而设计的专用文件系统NDFS(2004):分布式文件存储系统Nutch Distr原创 2022-01-05 10:37:15 · 1359 阅读 · 0 评论 -
数分-理论-大数据1-概述
数分-理论-大数据1-概述(数据分析系列)文章目录数分-理论-大数据1-概述1知识点2具体内容2.1大数据基础2.2概念2.3应用2.4关键技术3参考1知识点大数据基础概念应用关键技术2具体内容2.1大数据基础“互联网+”信息时代,信息化数据共享对所占有的数据进行深入分析,实现开发利用,从中发现新知识、创造新价值、提升新能力,取得实实在在的工作成效,才能够真正实现数据的价值2.2概念4V:数据量大(Volume)、数据类型繁多(Variety)、处理速度快( Velocit原创 2022-01-04 10:57:24 · 1882 阅读 · 0 评论