hadoop
文章平均质量分 73
codeing_doc
这个作者很懒,什么都没留下…
展开
-
hadoop学习(二)分布式文件系统与 HDFS shell操作
HDFS简介数据量越来越大,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统 管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就 是分布式文件管理系统 。分布式文件系统是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间分布式文件管理系统很多,HDFS 只是其中一种。适用于一次写入、多次查询的情 况,不支持...原创 2018-09-13 12:33:36 · 426 阅读 · 0 评论 -
hadoop学习(三) HDFS 的 java 访问接口
要使用宿主机中的 java 代码访问客户机中的 hdfs,需要保证以下几点确保宿主机与客户机的网络是互通的 确保宿主机和客户机的防火墙都关闭,因为很多端口需要通过,为了减少防火墙配置,直接关闭确保宿主机与客户机使用的 jdk 版本一致。如果客户机使用 jdk6,宿主机使用 jdk7,那么代码运行时会报不支持的版本的错误宿主机的登录用户名必须与客户机的用户名一直。比如我们 linux 使用...原创 2018-09-13 19:07:37 · 836 阅读 · 0 评论 -
hadoop 学习(一)伪分布式搭建
伪分布模式安装hadoop 的安装分为本地模式、伪分布模式、集群模式。本地模式是运行在本地,只负 责存储,没有计算功能,本书不讲述。伪分布模式是在一台机器上模拟分布式部署,方便学 习和调试。集群模式是在多个机器上配置 hadoop,是真正的“分布式”。下载http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.7...原创 2018-09-12 17:54:44 · 182 阅读 · 0 评论 -
hadoop学习(四)MapReduce分布式计算利器
MapReduce简介MapReduce 是 Hadoop 的核心组成,是专用于进行数据计算的。如果我们把 MapReduce 拆开看,就是两个单词 map 和reduce Map采用了一组数据,并将其转换成另一组数据,其中,各个元件被分解成元组(键/值对)。其次,减少任务,这需要从Map 作为输入并组合那些数据元组成的一组小的元组输出。MapReduce 执行过程MapRe...原创 2018-09-14 18:24:38 · 185 阅读 · 0 评论 -
HBase安装配置以及Java操作hbase
Apache HBaseApache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库特征线性和模块化可扩展性。严格一致的读写操作。...原创 2018-08-13 09:55:54 · 6323 阅读 · 1 评论 -
HBase之Java API 操作
HBase的管理Java API中止服务器或客户端。 void abort(String why,Throwable e)检查服务器或客户端是否已中止。 boolean isAborted() 返回此对象使用的连接。 Connection getConnection()判断表述否已存在,不存在则创建表 boolean tableExists 列...原创 2018-08-13 10:04:48 · 1012 阅读 · 0 评论