Hadoop
_missTu_
努力大于天赋的女孩,英语专八通过者,岗位是算法工程师。
展开
-
java.io.FileNotFoundException 拒绝访问(解决方法)
1. 运行eclipse报错如截图所示2. 解决方法报错提示拒绝访问,那可能是权限不够。右键eclipse --> 属性 -->兼容性 --> 勾上以管理员方式运行–>点击确定...原创 2019-12-03 11:34:22 · 36194 阅读 · 10 评论 -
hadoop 体系架构
HDFS和mapReduce共同组成了分布式系统体系结构的核心。(1) HDFS实现分布式存储。HDFS集群是由一个namenode和若干个datanode组成。namenode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作。datanode管理存储的数据,负责处理文件系统客户端的请求,并在namenode的调度下进行数据块的创建、删除和复制工作。(2) mapReduce...原创 2019-12-02 16:45:01 · 163 阅读 · 0 评论 -
jps命令没有namenode或datanode, 怎么解决?
1、为什么会出现这样的问题?(1)直接关闭了虚拟机,没有停止hadoop的集群(2)没有停止hadoop的集群,又重新启动集群(3)格式化namenode之前,没有删除data里的数据和logs日志,造成导致NameNode和DataNode的集群id不一致的情况。2、解决方法(一定要按顺序操作)(1)停止hadoop集群stop-all.sh(2) 删除data数据和logs日志...原创 2019-11-26 11:22:35 · 43225 阅读 · 62 评论 -
为什么不能一直格式化NameNode? 格式化NameNode,要注意什么?
查看namenode和datanode的ID[atguigu@hadoop101 hadoop-2.7.2]$ cd data/tmp/dfs/name/current/[atguigu@hadoop101 current]$ cat VERSION结果为:clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837[atguigu@hadoop...原创 2019-11-23 10:19:43 · 1026 阅读 · 0 评论 -
web端无法打开HDFS文件系统
安装过程中遇到的问题和解决方法,做些笔记和分享。1、查看有没有在Windows的hosts文件中配置IP地址到hostname的映射。2、查看core-site.xml和hdfs-site.xml是否配置好core-site.xml文件配置hdfs-site.xml文件配置3、查看在hadoop-env.sh文件中有没有设置Java的绝对路径Linux系统中获取JDK的安装路径:...原创 2019-11-22 21:34:12 · 3184 阅读 · 0 评论 -
Hadoop 上使用 yarn 的步骤
(1)应用程序向yarn提出申请(2)yarn请求namenode 上的node manager 创建一个application master 实例(3)新的application master 在yarn 上注册(4)application master 访问namenode节点,得到应用程序需要的文件,数据块的名字和具体位置,计算出整个应用程序需要的处理资源。(5)applicatio...原创 2019-07-20 19:42:21 · 421 阅读 · 0 评论 -
kafka 笔记
kafka是一个分布式的消息缓存系统kafka集群中的服务器都叫做brokerkafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载每一个分区都可以有多个副本,以防止数据的丢失某...原创 2019-06-07 17:00:02 · 189 阅读 · 0 评论 -
Hive 基本操作 总结
使用Hive之前要做的操作:(1) 启动dfs linux命令:# start-dfs.sh(2) 启动yarn linux命令:# start-yarn.sh(3)进入hivelinux命令:# hive如下图所示:创建表create table t_order(id int, name string, rongliang string, price double...原创 2019-06-06 16:33:43 · 309 阅读 · 0 评论 -
HADOOP和spark的关系? spark能否替代Hadoop???
1. HADOOP和spark的关系?如下图所示:Hadoop和 Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。...原创 2019-05-31 23:47:35 · 4825 阅读 · 1 评论 -
hive创建表时报错:failed on connection exception: java.net.ConnectException: Connection refused
hive创建表时报错FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From spark1/192.168.56.109 to spark1:...原创 2019-05-31 17:25:11 · 2184 阅读 · 0 评论 -
HDFS实现思想及namenode元数据管理机制
1. HDFS实现思想hdfs是通过分布式集群来存储文件,为客户段提供了一个便捷的访问方式,就是一个虚拟的目录结构。文件被存储到hdfs集群中是被切分成block的。文件的block存放在若干台datanode节点上。hdfs文件系统中的文件与真实的block之间存在映射关系,这个关系是由namenode进行管理。每个block在集群中会存储多个副本,好处是可以提高数据的可靠性,还可以...原创 2019-05-31 16:28:05 · 456 阅读 · 0 评论 -
Hadoop Ha高可用架构
1. 什么是Ha?Ha(High availability )高可用性。Hadoop Ha可以有多个namenode结点,一个是活跃(active)状态,一个是准备(standby)状态。HDFS集群中NameNode 存在单点故障(SPOF)。2. 为什么提出Ha?对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启...原创 2019-05-31 14:53:49 · 563 阅读 · 0 评论 -
shuffle过程——MRAPPmaster的任务监控调度机制
1. shuffle过程如下图所示2. 具体过程描述(1)MRAPPmaster启动map task进程(2)map task 向 MRAPPmaster汇报处理结果,结果文件所在位置,分区的信息(3)MRAPPmaster启动reduce task,并 通知reduce task要取哪一个分区的数据、数据位置(即主机、文件具体位置)(4)reduce task 从内存中下载数据(...原创 2019-05-30 12:50:33 · 357 阅读 · 0 评论 -
mapReduce——切片(split)
一. map mask与切片的关系map task的数量是由切片的数量决定的,有多少个切片,就启动多少个map task。切片是一个逻辑的概念,指的是文件中数据偏移量范围。切片的具体大小应该根据所处理的文件大小来调整...原创 2019-05-30 12:05:29 · 999 阅读 · 0 评论