![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
给我一个自信的表情
每天一点点
展开
-
Hadoop笔记系列一
Hadoophadoop起源:Hadoop起源于开源网络搜索引擎Apache Nutch。Apache Nutch是Lucene项目的一部分,Lucene是文本搜索系统库,Nutch是一个运行的网页爬取工具和搜索引擎系统。2003年的论文,描述谷歌产品架构,GFS(Google File System),2004年Nutch开发者开始着手做开源版本的实现,即Nutch分布式文件系统(NDF...原创 2018-11-27 16:45:29 · 225 阅读 · 0 评论 -
Hadoop数据流原理+实例代码
从HDFS中读取文件test.txt前提:启动Hadoop的所有组件⑴准备test.txt查询tetst.txt文件是否存在:hadoop fs -ls hdfs://localhost/test/ 注意:本人的test.txt文件在/test目录下,根据自己的实际查找,如果没有则创建一个。如下是test.txt文件中的内容[ld@localhost /]$ hadoop ...原创 2018-12-01 14:20:51 · 266 阅读 · 0 评论 -
Hadoop常见问题一
1.在使用Hadoop的有关命令的时候,出现Warnning ...等提示时?这是因为JDK内部的原因而导致的,所以提示建议选用不同版本的JDK。本人刚开始使用的是:JDK11,Centos操作系统,hadoop2.9.2,在进行hadoop命令操作时,出现Warnning,之后将JDK11改为JDK8后,使用hadoop命令不在出现警告,当然读者也可以尝试不同的JDK版本。2.在linu...原创 2018-12-01 14:23:46 · 252 阅读 · 0 评论 -
YARN中的调度
YARN调度:YARN应用发出资源请求通过调度器来分配资源。YARN提供了多种调度器和可配置策略。YARN中三种调度器,⑴FIFO调度器⑵容量调度器⑵公平调度器。1.FIFO调度器FIFO调度器将应用放置在一个队列中,然后按照提交的顺序运行应用,为队列中的第一个应用的请求分配资源,第一个应用的请求被满足后再一次为队列中下一个应用服务。FIFO调度器简单易懂,不需要任何配置,但不...原创 2018-12-01 23:44:59 · 176 阅读 · 0 评论 -
Hive笔记一
Hive是一个构建在hadoop上的数据仓库框架,其目的是让精通SQL但Java编程技能相对较弱的分析师能够对存放在HDFS中的大规模数据进行执行查询。Hive安装:下载地址:http://hive.apache.org/downloads.htmlHive配置:⑴使用XML配置文件进行设置,配置文件为conf目录下的hive-site.xml,该目录下还有hive-default.x...原创 2018-12-05 18:57:21 · 221 阅读 · 0 评论 -
MapReduce笔记一
MapReduce前提:配置文件Hadoop的配置通过配置文件来完成,配置文件的目录在/hadoopxx/etc/hadoop/目录下有各种有关hadoop生态系统组件的配置,在代码层面,可以通过Configuration类的实例来获取配置的信息以及代表相关的配置。配置文件的信息以键,值的方式来实现。例如:configuration-1.xml,位置(/etc/hadoop/) ...原创 2018-12-03 16:26:21 · 228 阅读 · 0 评论 -
Hive笔记二
HiveQL的增删改查:增:在MYSQL中,我们使用INSERT语句插入数据。但在Hive中,可以使用LOAD DATA语句插入数据。(Insert也可以哦)同时将数据插入到Hive,最好是使用LOAD DATA来存储大量记录。有两种方法用来加载数据:一种是从本地文件系统,第二种是从Hadoop文件系统。LOAD DATA [LOCAL] INPATH 'filepath' [OV...原创 2018-12-06 10:47:06 · 127 阅读 · 0 评论