HDFS
HDFS学习记录
这个妹妹我见过
小菜鸡养成记
展开
-
【大数据开发】Hadoop启动无NameNode,报错 ulimit -a for user root
问题之前用这hdfs好好的,然后某一天就成这个样子了,一直都不知道直到某一天发现进不去50070端口,这是什么神马操作,看了一下,NameNode呢?ResourceManager呢?查看日志:[root@host01 hadoop]# tail -500 /usr/local/hadoop/logs/hadoop-root-namenode-host01.outulimit -a for user rootcore file size (blocks, -c) 0dat原创 2021-03-18 11:10:25 · 1478 阅读 · 3 评论 -
【大数据开发】HDFS小文件合并四种方式
直接写数据到HDFS时,我们不可避免的要处理小文件问题,一般有1.落地之前增大batch(即增大了延迟)2.coalesce(分区合并)3.外部程序Merge4.Append(如果文件没有达到指定大小,下一个批次写数据的时候不创建新文件,而是和已存在的小文件合并)四种方式,各有其使用场景,如论哪种方式,无疑会增加我们的工作量。但是如果通过hudi写入数据,小文件的问题hudi自身会帮你解决,hudi自身解决的方案是`方法...原创 2020-11-05 12:00:04 · 2377 阅读 · 0 评论 -
【大数据开发】HDFS——客户端API文件操作
一、API之文件系统对象@Testpublic void testGetFileSystem() throws IOException { //创建配置对象,用于加载配置信息(四个默认的配置文件:core-default.xml,hdfs-default.xml,mapred-default.xml,yarn-default.xml) Configuration conf = new Configuration(); //修改fs.defaultFS属性的值 conf.s原创 2020-10-07 17:16:03 · 151 阅读 · 0 评论 -
【大数据开发】HDFS——Maven安装配置、API操作、文件上传
一、maven的安装配置1、解压安装包,路径不要带中文,不要有空格等特殊字符2、创建本地库目录,3、配置maven的运行参数conf/setting.xml1、配置本地仓库的路径在文件的52行左右,添加一行<localRepository>F:\apache-maven-3.3.9\repository</localRepository>2、配置远程库的地址在mirrors节点下增加配置,165行以下 <mirror> <id&g原创 2020-10-07 17:06:44 · 1343 阅读 · 0 评论 -
【大数据开发】Hadoop重点知识点总结
1.HDFS读写流程(1)写数据流程1).客户端发出请求 hdfs dfs -put /etc/profile /qf/data2).namenode查看维护的目录结构,检查/qf/data是否存在,检查操作权限。如不存在直接报错”no such file or directory“,如存在返回给客户端同意上传文件请求,将操作写入日志文件3).客户端请求上传第一个块,询问namenode块的存储位置4).namenode查看自己的datanode池,返回给客户端一个datanode列表5).客原创 2020-08-24 09:47:34 · 475 阅读 · 0 评论 -
Error while running command to get file permissions : (null) entry in command string: null ls -F
Error while running command to get file permissions : (null) entry in command string: null ls -F意思是没有得到文件的允许意思是说要把路径换成文件,而不是目录!注意是在路径后面加上文件名!原创 2020-08-20 19:53:32 · 1727 阅读 · 0 评论 -
【大数据开发】HDFS——hdfs原理、namenode、secondarynamenode、datanode、hdfs各类操作步骤总结day37
一、HDFS原理(1)HDFS概述HDFS集群分为两大角色:NameNode、DataNodeNameNode负责管理整个文件系统的元数据DataNode 负责管理用户的文件数据块文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本,并存放在不同的datanode上Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量HDFS的内部工作机制对客户端保持透明,客户原创 2020-08-17 16:46:35 · 645 阅读 · 0 评论 -
【大数据开发】HDFS——配置时间同步、动态节点上线和下线
一、配置时间同步(1)安装命令ntpyum -y install ntp.x86_64(2)配置ntpservervi /etc/ntp.confyy复制一行 p粘贴#restrict 192.168.1.0 mask 255.255.255.0 nomodify notraprestrict 192.168.10.131 mask 255.255.255.0 nomodify notrap修改结果如下图(3) 启动ntp协议并查看状态systemctl start ntpds原创 2020-08-14 17:08:25 · 602 阅读 · 0 评论 -
【大数据开发】HDFS——Hadoop简单概念、HDFS基本使用命令、解决安全模式3种办法
一、基本概念原创 2020-08-14 17:25:55 · 271 阅读 · 0 评论 -
【大数据开发】HDFS——SSH免密配置
今天很累!哎一、SSH免密登录原理:1.客户端向服务器发送远程请求2.服务器接收到请求后,将自己的主机的公钥发送给客户端,公钥用于加密3.客户端将主机发送来的公钥通过hash算法得出主机公钥的公钥指纹,核对公钥指纹是否正确,以确认当前请求连接的的是我们想要登录的主机。4.核对过公钥后,人机交互界面输入yes,客户端会将服务端的公钥保存在$HOME/.ssh/know_hosts文件中,可通过cat $HOME/.ssh/authorized_keys查看保存在客户端的公钥。5.客户端用服务.原创 2020-08-14 17:28:06 · 369 阅读 · 0 评论 -
【大数据开发】HDFS——Hadoop概念、背景、生态圈、分布式系统day34
一、Hadoop概念1.Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台,使用java语言开发,具有很好的跨平台性,可以运行在商用(廉价)硬件上,用户无需了解分布式底层细节,就可以开发分布式程序,充分使用集群的高速计算和存储。hadoop提供的功能:利用服务器集群,根据用户自定义的业务逻辑,对海量数据进行分布式处理Hadoop Common:支持其他hadoop模块的通用工具HDFS(Hadoop Distributed File System):hadoop的分布式文件系统,原创 2020-08-13 09:32:54 · 345 阅读 · 0 评论