大数据
文章平均质量分 76
大数据学习之旅
林立可
加点油呢!路还有那么长!
展开
-
【必坑指南】Windows 下基于 conda 安装 superset
Windows下基于conda安装superset原创 2022-06-22 21:25:41 · 1596 阅读 · 0 评论 -
【Hadoop系列】(三)YARN的介绍及原理
YARN1,YARN 概念YARN(Yet Another Resource Negotiator)是自 Hadoop2.0 之后引入的一个新组件,统一负责集群的资源调度和管理,为 MapReduce 程序分配运算资源。2,YARN 组件YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。ResourceManager作为资源管理的核心组件,通常单独部署在一个节点。负责为 client 提交的 j原创 2021-06-26 11:17:30 · 766 阅读 · 4 评论 -
【Hadoop系列】(二)MapReduce 的原理及使用
MapReuduce1,MapReduce 概念Mapreduce 是一个分布式运算程序的编程框架,其核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 hadoop 集群上。Mapreduce 易于编程、扩展性好、适合处理PB级别数据;但是他不适合处理实时数据,流失计算、有向图计算等。2,MapReduce 设计理念MapReduce 思想模块主要分为:Input、Spilt、Map、Shuffle、Reduce 等。Input:Read 读取数据;原创 2021-06-23 19:48:34 · 802 阅读 · 2 评论 -
【Hadoop 系列】(一)HDFS 的概念及介绍
HDFS1,基本概念HDFS(Hadoop Distributed File System)是Hadoop下的一个分布式文件系统,用于对数据的分布式文件存储。2,特点高容错:提供多副本机制,使得部分数据的丢失不会对数据造成影响。高吞吐:HDFS 的设计初衷是高吞吐量,而不是低时延。大文件支持:HDFS 更适合大数据的存储,规模应该是 GB、TB 级别。简单一致模型:一次写入多次读取 (write-once-read-many) 的访问模型,不支持随机访问和写入。高可靠:H原创 2021-06-20 14:02:56 · 711 阅读 · 0 评论 -
shell命令技巧:使用shell脚本实现集群一键启动
在hadoop集群搭建中,实现一键式启动集群:在/usr/local/bin路径下新建文件test.sh,并修改执行权限chmod +x ./test.sh,然后执行./test.sh这里实现启动hadoop100、hadoop101、hadoop102集群中的zookeeper组件#!/bin/sh for host in hadoop100 hadoop101 hadoop102 do ssh $host "source /etc/profile;/opt/module/z原创 2020-11-28 18:22:26 · 1079 阅读 · 0 评论 -
idea使用maven搭建Hadoop环境并运行第一个mapreduce程序实现WordCount
(一)MapReuduce入门之环境搭建1,定义:mapReduce是一种分布式计算框架,Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 hadoop 集群上。2,特点:mapReduce易于编程、扩展性好、适合处理PB级别数据;但是他不适合处理实时数据,流失计算、有向图计算等。3,mapreduce程序编写规则:1)Mapper 阶段(1)用户自定义的 Mapper 要继承自己的父类(2)Mapper 的输入数据是 KV 对原创 2020-11-18 09:52:23 · 2492 阅读 · 1 评论