Hadoop高手之路
文章平均质量分 90
零基础入门学学习Hadoop
W_chuanqi
这个作者很懒,什么都没留下…
展开
-
Hadoop高手之路10-Sqoop数据迁移
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。原创 2022-12-08 23:27:21 · 916 阅读 · 0 评论 -
Hadoop高手之路9-Azkaban工作流管理器
一个完整的数据分析系统通常都由大量的工作任务单元组成,例如脚本shell程序、数据采集、数据处理MR、数据存储、java程序等,各任务单元之间存在时间先后及依赖关系,为了将这些复杂的执行计划组织起来,需要一个工作流调度系统来调度执行。Azkaban工作流管理器由三个核心部分组成,分别是Relational Database(关系型数据库MySQL)、AzkabanWebServer(Web服务器)、AzkabanExecutorServer(执行服务器)。三者关系具体如图所示。原创 2023-01-06 09:10:44 · 1111 阅读 · 3 评论 -
Hadoop高手之路8-Flume日志采集
Flume原是Cloudera公司提供的一个高可用的、高可靠的、分布式海量日志采集、聚合和传输系统,而后纳入到了Apache旗下,作为一个顶级开源项目。Apache Flume不仅只限于日志数据的采集,由于Flume采集的数据源是可定制的,因此Flume还可用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。原创 2023-01-03 15:36:18 · 2295 阅读 · 17 评论 -
Hadoop高手之路7-Hadoop的新特性
ApplicationMaster:负责协调来自RM的资源,把获得的资源分配给内部的各个任务,实现“二次分配”。还通过NM监控容器的执行和资源的使用情况。ResourceManager:是一个全局的资源管理器,负责整个yarn集群资源的监控、分配和管理工作。NodeManager:是每个节点上的资源和任务管理器。出现错误,修改hadoop-env.sh文件。停止hdfs,然后再重新启动hdfs。kill掉ha001的相关的进程。分发该文件到ha002上。原创 2023-01-03 14:57:15 · 471 阅读 · 0 评论 -
Hadoop高手之路6-ZooKeeper
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper包含一个简单的原语集,提供Java和C的接口。原创 2023-01-02 22:58:43 · 685 阅读 · 2 评论 -
Hadoop高手之路5-MapRreduce
MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果,这种思想来源于日常生活与工作时的经验,同样也完全适合技术领域。MapReduce作为一种分布式计算模型,它主要用于解决海量数据的计算问题。使用MapReduce操作海量数据时,每个MapReduce程序被初始化为一个工作任务,每个工作任务可以分为Map和Reduce两个阶段。原创 2023-01-01 20:00:00 · 577 阅读 · 0 评论 -
Hadoop高手之路4-HDFS
Hadoop的核心是HDFS和MapReduce。其中,HDFS是解决海量大数据文件存储的问题,是目前应用最广泛的分布式文件系统。原创 2022-11-13 13:51:32 · 605 阅读 · 0 评论 -
Hadoop高手之路3-Hadoop集群搭建
Hadoop集群启动后,默认开发了9870端口(hadoop3.0以上版本,老版本使用50070)用于监控hdfs,8088用于监控yarn,可以通过WebUI查看。通过这个案例可以看出,圆周率的精度很低,mapreduce不善于数据计算,而在于数据的分析。JDK是java的开发工具包,hadoop是用java开发的,所以需要安装jdk。并没有启动独立模式,也就是启动独立模式也需要对hadoop进行配置。守护进程运行在由多台主机搭建的集群上,是真正的生产环境。又称单机模式,所有的进程运行在一台主机上。原创 2022-11-08 15:02:15 · 1616 阅读 · 0 评论 -
Hadoop高手之路2—Hadoop集群的基础设置
ssh是secure shell的简称,它相对于早起的telnet和rsh的明文传输,提供了加密、校验和压缩,使得我们可以很安全的远程操作, 而不用担心信息泄露(当然不是绝对的,加密总有可能被破解,只是比起明文来说那是强了不少)。虚拟机通过dhcp协议动态获取ip地址,有可能每一次启动虚拟机获取的ip地址都是不一样的,这是不推荐使用的。设置分配给虚拟机的内存,16G的内存设置2G就可以了,点击下一步。设置虚拟机名称和位置,注意不要放在C盘里,点击下一步。出现#提示符,说明登录成功,输入exit退出登录。原创 2022-10-28 11:54:19 · 1781 阅读 · 0 评论 -
Hadoop高手之路1—Hadoop简介
高速发展的信息时代,新一轮科技革命和变革正在加速推进,技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量,而“大数据”无疑是核心推动力。那么,什么是“大数据”呢?如果从字面意思来看,大数据指的是巨量数据。那么可能有人会问,多大量级的数据才叫大数据?不同的机构或学者有不同的理解,难以有一个非常定量的定义,只能说,大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB来衡量。原创 2022-10-25 11:31:26 · 738 阅读 · 0 评论 -
Exception in thread “main“ ExitCodeException exitCode=-1073741515
复制过去后还是不行,然后我又想是不是电脑缺少c++运行库导致的(缺失某些dll文件),因为之前重装了一下系统。链接:https://pan.xunlei.com/s/VNG24ZupE3VvuMolgsX9PxSAA1。这里下载C++库合集,下载好之后进行安装(默认就可以)。这样程序就运行成功了。这样程序就运行成功了。原创 2022-11-04 22:56:01 · 1472 阅读 · 6 评论