Hadoop
碣石观海
幸甚至哉,歌以咏志
展开
-
HDFS提供的Java API接口编程笔记
目录 1.读取HDFS文件(java.net.URL实现) 2.读取HDFS文件(Hadoop提供的FileSystem实现) 3.向HDFS写入文件 4.创建HDFS目录 5.删除HDFS上的文件或目录 6.查看HDFS文件存在 7.列出HDFS目录下的文件或文件名 8.查询HDFS文件存储的位置 9.写入SequenceFile 10.读取SequenceFile 本地访...原创 2019-04-13 21:35:29 · 1262 阅读 · 1 评论 -
hadoop常用接口及管理页面及问题收集
50070端口:访问hadoop管理页面 8088端口:访问Yarn管理页面 8042端口:从节点node管理页面,可查看节点的MR任务处理信息(Tools ---> Local logs) 注:windows下访问UI管理页面时,需设置“C:\Windows\System32\drivers\etc\hosts”文件,添加各节点主机名,方便访问。 常见问题收集: 问题1:端口无法...原创 2019-04-18 13:43:10 · 1041 阅读 · 0 评论 -
hadoop的Writable类
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来 序列化是指将对象转化为字节流以便在网络上传输或写到磁盘进行永久存储,而反序列化是指将字节流转化为对象的过程。Hadoop主要两方面使用序列化技术:IPC(进程间通信)和数据持久化。 Hadoop提供的序列化格式Writable(org.apache.hadoop.io.Writable),相比Java...原创 2019-04-18 14:40:49 · 555 阅读 · 0 评论 -
Hadoop完全分布式部署笔记
目录 一、安装两台虚拟机 二、修改主机名和用户名 三、配置静态IP地址 四、配置SSH无密码连接 五、安装JDK: 六、配置Hadoop 本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来,修正了原书中的一些细节处的问题,经过试验,可部署成功,特此附上完整部署笔记。 一、安装两台虚拟机 1.本机(笔记本)系统环境:CPU:Intel Core i5-7300HQ...原创 2019-05-10 11:54:28 · 747 阅读 · 0 评论 -
【转】Hadoop系统详细端口
----本文转载自:1.hadoop系统的端口 2.Hadoop配置文件_yarn-default.xml hadoop系统部署时用到不少端口。有的是Web UI所使用的,有的是内部通信所使用的,有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。 1.系统 8080,80 用于tomcat和apache的端口。 22 s...转载 2019-05-10 16:02:18 · 275 阅读 · 0 评论 -
实现MapReduce作业的分布式缓存加载到本地计算节点
一、问题场景 MapReduce任务是在独立的计算节点运行的。因此,对于作业提交节点上的某些文件,在计算节点本地是不存在的,会导致MapReduce任务失败(找不到文件)。 二、使用Hadoop分布式缓存(推荐) 1. 将计算结点需要的“边数据”(当前为"qqwry.dat"文件)上传到HDFS分布式文件系统中; 2. Job任务设置其(HDFS路径)为分布式缓存;(缓存文件会默认下载到每...原创 2019-05-28 17:24:37 · 378 阅读 · 0 评论