hadoop
mkl34367803
假如编程易懂得,那么程序员就不会热情地写出注释,也不会有得到编程的快乐。
展开
-
Hadoop2.7.3 自带example wordCount摸索记录
http://blog.csdn.net/subiyet/article/details/52414654首先最最重要的写在最前面,也是我觉得个人踩得最深的坑,刚接触hadoop的人,缺少的认识:hdfs的理解:它是一个文件系统,跟linux的文件系统是类似的结构,拥有类似的语法,大概就是你在linux上ls查看文件列表,那么hdfs的无非就是hadoop fs -ls。hadoop的转载 2017-02-16 20:52:03 · 5532 阅读 · 0 评论 -
学习hadoop的历史
1:Lucene是一个全文检索项目2:想要研究数据,必须先爬虫3:Nutch是一个包括全文搜索和Web爬虫搜索引擎3:爬虫之后,需要存储数据,存储的数据需要分析数据。4:google的三篇论文GFS, Map-Reduce, BigTable5:对应现在的hadoop hdfs, Map-Reduce, HBase原创 2017-03-10 16:29:37 · 304 阅读 · 0 评论 -
hadoop面试题
1.简要描述如何安装配置一个apache开源版hadoop,描述即可,列出步骤更好2.请列出正常工作的hadoop集群中hadoop都需要启动哪些进程,他们的作用分别是什么?3.启动hadoop报如下错误,该如何解决?error org.apache.hadoop.hdfs.server.namenode.NameNode org.apache.hadoop.hdfs转载 2017-03-10 10:28:27 · 706 阅读 · 0 评论 -
Hive2.1.1的安装(hadoop版本2.7.3)
Hive2.1.1的安装Hive简介 1.1 在Hadoop生态圈中属于数据仓库的角色。Hive能够管理Hadoop中的数据,同时可以查询Hadoop中的数据。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。1.2 Hive定义了简单的类SQL查询语言,称为HQL ,它允许熟悉SQL的用户查询数据。同转载 2017-03-04 16:59:36 · 1496 阅读 · 0 评论 -
Hadoop_MapReduce中的WordCount运行详解
源代码程序import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import转载 2017-03-03 11:02:22 · 286 阅读 · 0 评论 -
hadoop2.7.3学习之WordCount疑问
学习hadoop的WordCount程序的的时候,搞不懂map函数的输入到底是怎么一行一行读取数据的?import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;impor原创 2017-03-03 10:52:20 · 291 阅读 · 0 评论 -
第一个hadoop程序(java程序访问hadoop的hdfs文件系统中的文件)
1:hadoop2.7.3环境2:阿里云服务器centos6.5,ip是:47.88.14.1903:hadoop在伪分布式下运行的。4:具体配置文件如下:1)core-site.xml配置(ip地址最好不用localhost,不然不好测试) fs.defaultFS hdfs://47原创 2017-02-22 16:48:36 · 9914 阅读 · 0 评论 -
为什么要在eclipse中安装hadoop-eclipse-plugins插件?
1:hadoop-eclipse-plugins插件不是必须的,普通的java程序就可以访问hadoop的hdfs文件系统了。2:(插件是必须的,这个是一个错误的认识,具体请参考http://zy19982004.iteye.com/blog/2031172)。3:那么hadoop-eclipse-plugins有什么作用呢?1)对hadoop中的文件可视化。2)创建MapRedu原创 2017-02-22 16:32:02 · 3423 阅读 · 0 评论 -
eclipse配置hadoop-eclipse-plugin(版本hadoop2.7.3)
1:首先下载hadoop2.7.32:下载hadoop-eclipse-plugin-2.7.3.jar(注:自己百度,可以下载csdn上有下载)3:下载eclipse-mars-24: eclipse中安装hadoop-eclipse-plugin-2.7.3.jar插件。(注:自己百度,把包导入到eclipse的安装目录的plugins下重启eclipse就可以了)5:打开ec原创 2017-02-22 11:53:20 · 4823 阅读 · 2 评论 -
HDFS的理论学习笔记
HDFS的优点1:高容错性,HDFS默认有多个副本,及时服务器坏了一台之后,会补全坏掉服务器上面的副本,放到其他的没有坏掉的服务器上。2:可以构建在廉洁的机器上HDFS的缺点1:不适合低延迟数据量访问2:小文件的存取,占用NameNode大量内存(因为每一个块文件都要一个元数据来存储块的地址)那么小文件如何存储呢?比如百度云上传的图片小文件,是怎么储存的?3:不支持原创 2017-03-10 16:59:38 · 216 阅读 · 0 评论