大数据
文章平均质量分 63
军大_j
这个作者很懒,什么都没留下…
展开
-
scala 函数式编程 实例
1、遍历 foreachforeach(f: (A) => Unit): Unitscala> val a = List(1,2,3,4)val a: List[Int] = List(1, 2, 3, 4)scala> a.foreach((x:Int) => {println(x)})1234scala> a.foreach((x:Int) => println(x)) --类型推断,不需要指定1234scala> a.f原创 2021-02-17 17:21:20 · 488 阅读 · 0 评论 -
Scala 不可变List列表操作
不可变List列表操作创建空列表scala> val list = Nilval list: collection.immutable.Nil.type = List()scala> val list = List()val list: List[Nothing] = List()创建带初始值的列表scala> val list = List("aa", "bb", "cc")val list: List[String] = List(aa, bb, cc)sca原创 2021-02-17 16:42:23 · 409 阅读 · 0 评论 -
Hadoop HDFS 高可用解决方案
Hadoop官方推荐的解决方案是:Quorum Journal Manager(仲裁日志管理器,简称:QJM)。QJM处理方式:1、使用zookeeper中的ZKFC来实现主备切换;2、使用Journal Node(JN)集群实现edits log的共享达到数据同步的目的;3、使用zookeeper客户端ZK Failover Controller来监控和管理NameNode的健康状态;集群搭建:1、服务器环境免密登录、集群时间同步、JDK、hostname等的配置..原创 2021-02-04 17:28:39 · 849 阅读 · 0 评论 -
HDFS白名单和黑名单机制
白名单允许哪些机器可以加入到当前的HDFS集群中。通过在hdfs-site.xml中配置dfs.hosts参数来指定白名单,dfs.hosts默认值为空,表示所有机器都可以加入集群中。白名单配置和启动过程:1、创建 dfs.hosts 文件,并添加白名单的主机名称,每行一个主机文件路径在NameNode的/opt/module/hadoop-2.7.2/etc/hadoop目录下2、在 hdfs-site.xml 配置文件中配置 dfs.hosts 属性<prope.原创 2021-02-04 16:18:03 · 1400 阅读 · 0 评论 -
HDFS 纠删码 EC
https://blog.csdn.net/zpf_940810653842/article/details/106530221转载 2021-02-04 15:46:07 · 158 阅读 · 0 评论 -
HDFS负载平衡器和磁盘均衡器
HDFS负载平衡器Hadoop的HDFS集群中DataNode之间很可能会出现分布不均匀的情况,比如新增了集群节点、删除节点等。当数据不均匀时,处理数据时会集中在某一些节点上,可能导致相关node节点的网络带宽消耗到瓶颈,而新增或数据较少的节点处于空闲状况。在上面的情况下,可以通过HDFS的负载均衡器进行调整,使数据平均分布在各个Node节点上,均衡各项资源的性能,从而提升DataNode节点和集群的利用率。balancer配置 命令行说明Usage: hdfs balance..原创 2021-02-04 15:42:31 · 1213 阅读 · 0 评论 -
HDFS短路本地读取(Short Circuit Local Reads)
在HDFS中,读取操作都是通过DataNode来进行的。因为需要DataNode在中间做一次中转,所以对性能有一定的影响。客户端是否可以跳过DataNode直接对文件进行操作?只有客户端和数据在同一台服务器上,可以通过“短路”本地读取直接读取文件。所谓“短路”读取,就是允许绕过DataNode让客户端直接读取文件,从而提升文件的读取性能。HDFS的“短路”读取是建立在Linux中的Unix Domain Socket技术上的。Unix Domain Socket是一种进程间的..原创 2021-02-03 18:20:31 · 1291 阅读 · 0 评论 -
HDFS NameNode的安全模式
在安全模式期间,客户端只能浏览HDFS文件系统目录层次结构,但是不能写HDFS(创建文档夹、上传文档、删除文档 都不能操作)。安全模式启动的两种情况:1、自动启动和关闭,当只启动了NameNode或DataNode还未完成块数量的99.9%上报时, NameNode就在安全模式下。2、通过命令手工启动和关闭安全模式。自动启动和关闭安全模式NameNode启动时,会读取映射文件fsimage载入内存,并执行编辑日志edits中的各项操作,这个过程中会更新内存中的元数据,并将内存..原创 2021-02-03 15:33:58 · 1797 阅读 · 2 评论 -
DistCp(分布式拷贝)
DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。DistCp使用Map/Reduce和文件系统API进行操作。对于HDFS来说,源和目的端要运行相同版本的协议或者使用向下兼容的协议。拷贝完成后,建议生成源端和目的端文件的列表,并交叉检查,来确认拷贝真正成功。基本使用方法1、DistCp最常用在集群之间的拷..原创 2021-02-03 14:43:18 · 1448 阅读 · 0 评论 -
HDFS异构存储简介
企业数据中可分为实时数据、热数据、冷数据、极冷数据,不同的数据在使用频率上存在很大的区别比如实时数据可能是需要实时处理并实施反馈给客户端,而冷数据是不常用可能几周或者几个月才会用到一次。考虑到上面实际情况,HDFS通过异构存储机制将不同需求或者冷热数据存储到不同的介质中,即兼顾了性能又兼顾了成本。HDFS异构存储声明了4种存储类型:RAM_DISK(内存)SSD(固态硬盘)DISK(机械硬盘),默认使用ARCHIVE(高密度存储介质、存储归档历史数据)异构存储的开启需..原创 2021-02-03 11:23:09 · 388 阅读 · 0 评论 -
Web方式访问HDFS
Hadoop提供了两种Web方式访问HDFS,分别是:WebHDFS和HttpFS。WebHDFSWebHDFS提供了访问HDFS的RESTful接口,是内置组件,并且默认开启,运行于NameNode和DataNode中,对HDFS文件的读写,将会重定向到文件所在的DataNode,并且会完全利用HDFS的带宽。;WebHDFS访问时,首先访问NameNode获知文件所在的DataNode地址,然后重定向到目标DataNode获取文件内容;WebHDFS默认端口是50070和50075.原创 2021-02-02 16:30:42 · 10702 阅读 · 0 评论 -
hadoop hdfs基本Api实例
本样例使用maven工程实现。hdfs操作依赖的包<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.1.4</version></dependency><dependency> <groupId>org.apache.h原创 2021-02-01 17:25:40 · 93 阅读 · 0 评论 -
Windows安装Hadoop3.1.4
1、安装JDK1.8配置环境变量:JAVA_HOME=D:\java\jdk1.8.0_181PATH=PATH;%JAVA_HOME%\bin2、下载Hadoop3.1.4访问下载链接: https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.4/hadoop-3.1.4.tar.gz 下载hadoop-3.1.4.tar.gz,并解压到规划的路径下,如下图:3、下载Windows工具包...原创 2021-02-01 15:47:29 · 2940 阅读 · 0 评论