大数据
文章平均质量分 54
Ahuuua
这个作者很懒,什么都没留下…
展开
-
Hive元数据存储的三种模式,hive有哪些保存元数据的方式,各有什么特点。
1)、内嵌模式:将元数据保存在本地内嵌的derby数据库中,内嵌的derby数据库每次只能访问一个数据文件,也就意味着它不支持多会话连接。2). 本地模式:将元数据保存在本地独立的数据库中(一般是mysql),这可以支持多会话连接。3). 远程模式:把元数据保存在远程独立的mysql数据库中,避免每个客户端都去安装mysql数据库。Hive Metastore有三种配...原创 2020-05-03 20:56:06 · 10777 阅读 · 0 评论 -
Hadoop中节点的服役和退役,加入或删除 存储节点或计算节点, 黑白名单
节点的服役和退役(hdfs)----------------------[添加新节点]1.在dfs.include文件中包含新节点名称,该文件在nn的本地目录。只有名称节点需要它[白名单][s201:/soft/hadoop/etc/dfs.include.txt]这个路径是自己放的,自己加的文件s202s203s204s2052.在hdfs-...原创 2020-05-03 20:49:27 · 633 阅读 · 0 评论 -
Hadoop MapReduce中Combiner作用
问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个<key,value>键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。在上述过程中,我们看到至少两个性能瓶颈:(引用)1. 如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapp...转载 2020-05-03 17:19:49 · 940 阅读 · 0 评论 -
HDFS存储的机制之HDFS读写流程
转载于作者:tracy_668 链接:https://www.jianshu.com/p/12047b780595写流程1.HDFS提供的客户端Client,向远程的Namenode发起RPC请求。2.Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作。成功则会文件创建一个记录,否则会让客户端抛出异常。3.(a)当客户端C...转载 2020-05-03 15:47:46 · 781 阅读 · 0 评论 -
MapReduce中Combiner后Reduce前的Sort&Merger流程说明
用于说明文章《MapReduce作业提交过程及计算流程》(https://blog.csdn.net/Ahuuua/article/details/105806859)中MR计算流程的第9步。原文如下:9.Sort&Mergesort+merge:对多个Mapper任务的输出,按照不同的分区,通过网络拷贝到不同的Reducer节点上进行处理,将数据按照分区拷贝到不同的Reduc...原创 2020-05-03 11:42:45 · 546 阅读 · 0 评论 -
MapReduce作业提交过程及计算流程
转载于小北觅https://www.jianshu.com/p/d1e7b4ff3810之前看了YARN权威指南后总结了YARN作业提交流程(https://blog.csdn.net/Ahuuua/article/details/90410512),但还是不够清晰详细,所以转载这篇文章以便日后学习用。 MR作业提交过程 提交过程按这个图来,1.Job的submit()方法创...转载 2020-04-30 11:09:33 · 1110 阅读 · 0 评论 -
Hadoop HDFS流式数据模式访问
HDFS(Hadoop Distributed File System)是Hadoop分布式计算中的数据存储系统,是基于流数据模式访问和处理超大文件的需求而开发的。现在也不知道什么是基于流数据模式访问,能解释的希望评论告我以下,谢谢啦收集到的资料有如下:(1)HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。流式数据访问:HDFS的构建思路:一次写入,多次读取的高效的访问...原创 2020-12-24 15:05:10 · 3777 阅读 · 1 评论 -
windows下使用idea编译spark2.x源码步骤
一开始看的这两个:https://blog.csdn.net/FishSeeker/article/details/63741265https://juejin.im/entry/584e8e2e0ce463005c64f36c按照他们的来最后在cmd中进入spark根目录,mvn -T 4 -DskipTests clean package,出现了如下两个问题并解决了:htt...转载 2019-12-01 21:16:48 · 620 阅读 · 0 评论 -
mvn编译spark:Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin
window10下编译出错,cmd中显示[INFO] Spark Project Examples ............................. SKIPPED[INFO] Spark Integration for Kafka 0.10 Assembly .......... SKIPPED[INFO] Spark Avro ..........................转载 2019-11-30 18:20:03 · 2106 阅读 · 0 评论 -
mvn编译:Failed to execute goal org.apache.maven.plugins:maven-enforcer-plugin:3.0.0-M2:enforce
maven编译spark过程中出现如下问题[INFO] Total time: 1.642 s (Wall Clock)[INFO] Finished at: 2019-11-30T17:28:06+08:00[INFO] Final Memory: 38M/462M[INFO] ----------------------------------------------------...原创 2019-11-30 17:40:33 · 13655 阅读 · 8 评论 -
Spark Streaming 实例:滑动窗口Window中的数据进行累加 —— 读取Kafka数据实现最近一小时能耗数据统计
数据格式如下:电表标签+每15min的用电量(度)MT_001:0;MT_002:5;MT_003:0;MT_004:40;MT_005:20;MT_001:0;MT_002:5;MT_003:0;MT_004:30;MT_005:15;MT_001:0;MT_002:4;MT_003:0;MT_004:30;MT_005:13;MT_001:0;MT_002:4;MT_003:0;MT...原创 2019-11-25 16:35:32 · 1221 阅读 · 0 评论 -
hive on spark :Failed to execute spark task, 'org.apache.hadoop.hive.ql.metadata.HiveException
报错:Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)'FAILED: Execution Error, return code 1 from org.apache.hadoop.hive....原创 2019-11-19 20:59:37 · 14167 阅读 · 1 评论 -
spark搭建 java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration
初次start启动时出错:starting org.apache.spark.deploy.master.Master, logging to /soft/spark/log/spark-superahua-org.apache.spark.deploy.master.Master-1-b1.outfailed to launch org.apache.spark.deploy.maste...原创 2019-11-19 10:33:05 · 5444 阅读 · 5 评论 -
ERROR cluster.StandaloneSchedulerBackend: Application has been killed. Reason: Master removed app...
初次搭建spark standalone集群,进入spark shell后报错如下:$spark-shell --master spark://b1:7077Setting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLeve...原创 2019-11-15 16:56:05 · 4531 阅读 · 0 评论 -
Spark安装初次启动时:failed to launch: nice -n 0 /soft/spark/bin/spark-class org.apache.spark.deploy...
目录1.节点访问logs目录时 有 Permission denied 的警告2.failed to launch: nice -n 0 /soft/spark/bin/spark-class org.apache.spark.deploy.worker.Worker...3.ERROR Worker: Failed to create work directory /soft/sp...原创 2019-11-15 11:39:30 · 7590 阅读 · 2 评论 -
HBase truncate表后原本split的分区没有了,变成了1个region
HBase truncate表后原本split的分区没有了,变成了1个region>create 'ns1:raw_test', 'MT', SPLITS => ['10', '20', '30', '40', '50', '60', '70', '80', '90']>truncate 'ns1:raw_test'使用这个:>truncate_pres...原创 2019-11-09 14:10:20 · 1316 阅读 · 0 评论 -
启动HBase时 Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m ,MaxPermSize=128m;
starting master, logging to /soft/hbase/logs/hbase-superahua-master-b1.outJava HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0Java HotSpot(TM) 64-Bit...转载 2019-11-04 14:27:20 · 3128 阅读 · 0 评论 -
Windows下读hdfs数据时出现java.lang.IllegalArgumentException: java.net.UnknownHostException:
配置文件这样子问题是这样子:。。。解决方法:是由于Windows下找不到Linux的主机名造成的。一、将配置文件里的主机名都改成ip地址,例如 hdfs://192.168.0.101/user/superahua/hello.txt或者二、修改C:\Windows\System32\drivers\etc\hosts文件 在底部...原创 2018-10-05 16:31:13 · 3279 阅读 · 0 评论 -
Yarn三种调度器组件 FIFO、Capacity、Fair Scheduler
调度器是YARN的一种可插拔的组件,可根据不同的需求选择调度器(Scheduler)。调度器可以在yarn-default.xml中设置关于调度器的信息,并可以在ResourMananger的WebUI的界面左侧集群菜单中的调度选项中找到调度信息(图在文章最下面)。FIFO调度器FIFO调度是一种“先进先出”、“先来先服务”的调度,先来的工作队列先被拉取,不考虑作业的优先级和范围,也可以说...原创 2019-04-23 14:59:28 · 1117 阅读 · 0 评论 -
安装CDH过程记录
配置五个节点,有几个节点是虚拟机为了方便在Windows中用webUI,编辑C:\Windows\System32\Drivers\etc\hosts,加入如下地址和主机名下面是要在各节点上执行的:1.修改主机名centos7中修改hostname里的名字后重启主机名会恢复成以前的样子要用hostnamectlset-hostname 主机名来修改参考:https...原创 2019-05-10 14:31:33 · 482 阅读 · 0 评论 -
YARN 作业流程 详细介绍(资源模型)
客户端Application(job)请求,客户端通知ResourceManager他要提交一个应用程序。 ResourecManager应答并带回ApplicationID。 Application Submission Context(应用程序提交上下文)包含ApplicationID、用户名、队列名、Container Launched Context(CL...原创 2019-05-23 11:00:18 · 826 阅读 · 0 评论 -
CDH安装hdfs后Permission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x 的解决
方法一、使用指定的用户去执行sudo-uhdfshadoopfs-mkdir/newFilesudo-uhdfs yarn jar hadoop-examples.jar pi 3 100方法二、进入root用户,再su hdfs 进入hdfs用户去执行方法三、在hdfs-site.xml中添加设置这种方法可让所有用户访问hdfs了,不用进入hdfs...原创 2019-05-29 13:05:20 · 4112 阅读 · 0 评论 -
hadoop的基准评测程序 及 terasort grep wordcount测试
下面的hadoop-examples.jar是建立的软链接:hadoop-examples.jar -> /opt/cloudera/parcels/CDH-5.12.01.cdh5.12.0.p0.29/share/doc/hadoop-0.20-mapreduce/examples/hadoop-examples.jar CDH安装的hadoop在这里: /opt/cloud...原创 2019-05-29 15:06:58 · 1316 阅读 · 0 评论 -
yarn命令 中文
英文:http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnCommands.html中文转自:https://han-zw.iteye.com/blog/2338962概述YARN命令通过bin/yarn 脚本调用.不传入任何参数运行该脚本会打印所有命令的描述。Usage:yarn [--co...转载 2020-12-24 15:03:16 · 447 阅读 · 0 评论 -
yarn命令的使用
yarn application1、-list 列出所有 application 信息 示例:yarnapplication -list2、-appStates <States>跟 -list 一起使用,用来筛选不同状态的 application,多个用","分隔;所...转载 2019-06-02 16:15:18 · 688 阅读 · 0 评论 -
Hadoop YARN中 VCores used 与 VCores Avail 数量不相符, YARN WebUI中显示的VCores数不对
1.问题复现如图,在yarn-site.xml中我设置的VCores是2个,每个节点提供2GB内存,在mapred-site.xml中设置的每个container是384M。提交了很多任务后,yarn调度器按照 (2GB * 1024)/ 384 = 5 余 128M ,每个节点申请了5个container,但我设置的VCores只有两个,怎么能有这么多container呢?2.分析...原创 2019-06-19 15:30:36 · 4563 阅读 · 0 评论 -
Missing artifact org.apache.hadoop:hadoop-client:jar:2.6.0-cdh5.12.0 的解决 CDH版本hadoop的pom.xml
需要配置下载环境CDH库 <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> <relea...转载 2019-06-03 18:50:00 · 6127 阅读 · 0 评论 -
hadoop contianer内存大小配置 和一些其他配置
一般都是像这样yarn jar hadoop-examples.jar pi 6 2000 写一些跑完就没事了,可是我发现这样每个粒例子的container都是1GB1vcore的,相对于我所使用的“pi 6 2000”太多了,那么如何在测试的时候设置我container的大小呢?在webui中我的memory total是8GB,发现放满八个container后,主机的物理内存还只...原创 2019-06-04 15:37:41 · 1743 阅读 · 0 评论 -
yarn app的状态 ALL, NEW, NEW_SAVING, SUBMITTED, ACCEPTED, RUNNING, FINISHED, FAILED, KILLED
转自:yarn RMApp-状态机实现https://www.jianshu.com/p/cb98a72c94ab状态机介绍在RM内部维护着所有Application的状态。对于每个Application都有一个RMApp对象与之对应。在RMApp的实现类RMAppImpl中,维护着对象的基本信息,包括起始时间、名字、用户、组等信息,其中最复杂的部分莫过于其维护的状态机。状态与转换解...转载 2019-06-11 16:12:35 · 5479 阅读 · 0 评论 -
CHD maven依赖
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo.html#topic_7CDH5.11.0的:https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_c...转载 2019-08-29 15:21:58 · 520 阅读 · 0 评论 -
HA+ZK高可用集群开启时 8020端口拒绝连接 8485端口拒绝连接 ConnectException
错误描述:搭建HA+ZK高可用集群时出现错误:start-dfs.sh之后有一个名称节点开不起来,情况是刚启动时是开着的,完全启动后过很短的时间一个namenode就会死掉,webui就无法查看,而且无active节点。集群是这样: namenode:s51,s55查看日志: 192.168.1.53:8485: Call From s51/192.168.1...原创 2019-03-20 15:46:59 · 3947 阅读 · 0 评论