Hadoop
码农的世界,你不懂
这个作者很懒,什么都没留下…
展开
-
Hadoop几个重要的参数配置
core-site.xml 配置项 缺省值 配置说明 hadoop.tmp.dir /tmp/hadoop-${user.name} 只可以设置一个值;建议设置到一个足够空间的地方,而不是默认的/tmp下,服务端参数,修改需重启 fs.defaultFS file:/// ...原创 2020-01-16 09:34:02 · 417 阅读 · 0 评论 -
Hadoop学习笔记11之HDFS其他常用操作命令
配置hadoop的最小blocksize,必须是512的倍数。------------------------------------------- [hdfs-site.xml] dfs.namenode.fs-limits.min-block-size=1024 write,进行校验,512进行一次校验。单独配置辅助名称...原创 2019-12-04 11:45:54 · 183 阅读 · 0 评论 -
Hadoop的三个面试题
三个面试题面试题一:有一个非常大的文件,一台机器处理不了,存储的是ip每行一个,统计一下出现次数最多的那个ip。如果是小文件1)创建io流对这个文件进行读取,将读取的内容放在map集合中(ip,次数) 2)循环遍历map集合,取出value最大的值大文件情况map集合,list集合,数组,set集合——-都是在内存进行操作的,文件过大会造成内存溢出,根本无法处理。一台机器原始...原创 2019-12-02 14:34:10 · 113 阅读 · 0 评论 -
大数据入门Hadoop安装
解压hadoop tar -zxvf h -C app/hadoop文件目录结构解析:bin:可执行脚本sbin:系统脚本,启动停止hadoop的脚本etc:hadoop的配置文件lib:hadoop的本地库include:本地库包含文件share:包含了hadoop的jar包和一些说明文档,我们可以删除说明文档,精简hadoop进入hadoop的配置文件去更改设...原创 2019-11-28 11:57:54 · 182 阅读 · 0 评论 -
Hadoop2.7.4完全分布式集群构建实战总结
配置Linux环境配置好各虚拟机的网络(采用NAT联网模式) 通过Linux图形界面进行修改(桌面版本Centos):进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections-> 选中当前网络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选择为manual ->点击ad...原创 2019-11-27 15:47:30 · 171 阅读 · 0 评论 -
Hadoop的集群安装
今天开始hadoop学习。一开虚拟机就出现各种状况。状况一vim 编辑器出现中文乱码。一开始以为是编码集的问题,去看了下编码集编码集就是utf-8,而且在命令行中可以输入中文。可能就是vim的问题。解决办法打开~/etc/vimrc,添加`setfileencodings=utf-8,ucs-bom,gb18030,gbk,gb2312,cp936setterme...原创 2019-11-26 15:13:51 · 99 阅读 · 0 评论 -
与 Hadoop 对比,如何看待 Spark 技术?
首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。MapReduce通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的PC组成的不可靠集群上并发...原创 2019-11-15 11:16:48 · 91 阅读 · 0 评论