【Hadoop】
天海行者
什么都略懂一点,生活更多彩一些
展开
-
hadoop面试题
海量数据面试题整理 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文转载 2015-03-15 11:37:09 · 602 阅读 · 1 评论 -
Hadoop:hdfs-site.xml,mapred-site.xml,core-site.xml 配置项清单
hdfs-site.xml配置项清单: 清单中涉及的专业词语使用如下简称 NN:NameNode DN:DataNode SNN:SecondaryNameNode 属性 值 说明 dfs.namenode.handler.count 10 NN启动后开启的线程数。 dfs.name.dir ${hadoop.tmp.dir}/dfs/n...转载 2018-09-20 11:26:48 · 589 阅读 · 0 评论 -
ZooKeeper学习001
ZooKeeper是Google的Chubby是一个开源实现,是Hadoop的一个分布式协调服务,它包含一套原语,分布式应用开源基于 它实现同步服务,配置维护和命名服务等。 注意:zookeeper一定是一个集群,集群数目最小是3(其中有一个是leader,其余的都可以是follower) 安装ZooKeeper步骤: 准备好zooKeeper的软件,在虚拟机解压缩,配置环境变转载 2015-05-17 11:40:29 · 471 阅读 · 0 评论 -
HBSE学习
HBase--Hadoop DataBase,是一种高可靠、高性能、面向列、可伸缩、的分布式存储系统。利用HBase可以在廉价的PC Server上搭建大规模的结构化存储集群 ,它利用hadoop HDFS作为文件存储系统,利用hadoop的mapreduce来处理海量数据,利用ZooKeeper来作为协调工具 1、HBase的数据模型(NOSQL) 1.1、表(ta转载 2015-05-17 11:35:56 · 1287 阅读 · 0 评论 -
HDFS的一些操命令
-help [cmd] 显示命令的帮助信息 -ls(r) 查看当前目录下的文件 -du(s) 显示目录中所有文件的大小 -count[-q] 显示目录中所有文件的数量 -mv 移动多个文件到目录文件中 可以用这个命令来重命名文件 -cp 复制多个文件到目录 -rm(r) 删除文件或者文件夹 -put 本地(linux)文件复制到hdf转载 2015-05-17 11:47:45 · 646 阅读 · 0 评论 -
HBase的java操作源代码
import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impo转载 2015-05-17 11:36:38 · 569 阅读 · 0 评论 -
ZooKeeper的示例代码
import java.util.List; import org.apache.zookeeper.CreateMode; import org.apache.zookeeper.KeeperException; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.Watcher; import org.a转载 2015-05-17 11:41:36 · 668 阅读 · 0 评论 -
错误Name node is in safe mode的解决方法
将本地文件拷贝到hdfs上去,结果上错误:Name node is in safe mode 这是因为在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全转载 2015-03-05 17:53:59 · 634 阅读 · 0 评论 -
hadoop介绍及虚拟机环境配置
1、hadoop是什么? 答:适合大数据的分布式存储与计算平台 2、HDFS是什么? hadoop distributed file system 分布式文件系统 HDFS的架构: 主从结构: 主节点:namenode(只有一个) 接受用户操作请求 维原创 2015-03-15 11:25:42 · 571 阅读 · 0 评论 -
hadoop单词计数
源数据 hello you hello me package mapreduce003; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.net.URI; import原创 2015-03-15 11:18:11 · 1528 阅读 · 0 评论 -
hive 求月访问记录,累计访问记录
求出当月记录和累计记录,如2月累计记录=1月+2月记录,3月累计记录=1月+2月+3月记录 A,2015-01,1 A,2015-01,11 A,2015-01,12 A,2015-01,13 B,2015-01,10 B,2015-01,20 B,2015-01,30 B,2015-01,40 A,2015-01,1 A,2015-01,11 A,2015-01,12 A,2015-02,1...原创 2018-10-10 16:45:47 · 549 阅读 · 0 评论