![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 57
S_Running_snail
我是一个即将毕业的大学生,对软件工程特别喜欢,特别是对于python这个语言
展开
-
zookeeper一键启动脚本
当你每次开启zookeeper需要每一台机器上输入命令,实在是很繁琐配置zookeeper启动脚本的前提是hadoop集群配置完成,因为配置集群中会修改/etc/hosts文件,此shell脚本中会用到修改后的主机名1.创建zkstart.sh脚本:vi zkstart.sh在哪创建都一样,我的是放在了zookeeper的bin目录下,记得配置好环境变量2.脚本内容:...原创 2018-10-13 11:01:59 · 1960 阅读 · 1 评论 -
Hadoop生态圈组件
1、HDFS(hadoop分布式文件系统)是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。client:切分文件,访问HDFS,与那么弄得交互,获取文件位置信息,与DataNode交互,读取和写入数据。namenode:主节点,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户 端请求。DataNode:slave节点,存...原创 2018-11-17 21:05:22 · 783 阅读 · 0 评论 -
spark可以替代hadoop吗?
我经常会从客户或者网上听到这个问题,尤其是最近几年。那么关于spark哪些被我们神化了,哪些又是真实的,以及它在“大数据”的生态系统中又是怎样的? 说实话,其实我把这个问题作为标题是有问题的,但是我们经常会这样问。Hadoop并不是一个单独的产品而是一个生态系统,而spark也是一样的。下面让我们来一个一个解释。目前Hadoop生态系统主要包括:HDFS—Hadoop分布式文件系统。它是一...转载 2018-11-24 08:26:16 · 1736 阅读 · 0 评论 -
Hive数据存储
1、Hive中所有的数据包存储在HDFS中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFile等)2、只需要在创建表的时候告诉Hive 数据中的列分隔符和行分隔符,Hive就可以解析数据。(不懂hive中数据分割符的可以看我的这一篇:https://blog.csdn.net/S_Running_snail/article/details/8...原创 2018-11-19 20:10:17 · 278 阅读 · 0 评论 -
hive指定数据切分格式--row format
创建表时需要指定数据切分格式,会用到ROW FORMAT关键字。下面是java集合框架图,存入hive的数据就是集合中的某一种所以在创建标的时候就可以指定分隔符:第一个--<字段>,由[ , ]分割----------FIELDS TERMINATED BY ',' 第二个是--<Array形式>,元素与元素之间由[ - ]分割----------COLL...原创 2018-11-19 18:59:37 · 3519 阅读 · 0 评论 -
Hive中join操作及用法---详解
实验准备数据首先要准备两个文档,用来下面做join操作>>a.txt1,a2,b3,c4,d7,y8,u>>b.txt2,bb3,cc7,yy9,pp 建表:create table a(id int,name string)row format delimited fields termin...原创 2018-11-21 09:09:37 · 1194 阅读 · 0 评论 -
Hive中order by,sort by, distribute by, cluster by区别,用法详解
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有一点...转载 2018-11-20 15:15:45 · 440 阅读 · 2 评论 -
Hadoop常用端口号
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。 这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件 节点 默认端口 配置 用途说明...原创 2018-11-20 14:41:11 · 1453 阅读 · 0 评论 -
Hadoop2.6 ---- MapReduce工作原理
MapReduce得整个工作原理下面对上面出现的一些名词进行介绍ResourceManager:是YARN资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。它接收来自NM(NodeManager)的汇报,建立AM,并将资源派送给AM(ApplicationMaster)。NodeManager:简称NM,NodeManager是ResourceManager在每台机器的...转载 2018-11-14 19:13:14 · 162 阅读 · 0 评论 -
排序算法--冒泡,选择,插入
1、冒泡排序 冒泡排序是一种极其简单的排序算法,也是我所学的第一个排序算法。它重复地走访过要排序的元素,依次比较相邻两个元素,如果他们的顺序错误就把他们调换过来,直到没有元素再需要交换,排序完成。这个算法的名字由来是因为越小(或越大)的元素会经由交换慢慢“浮”到数列的顶端。 冒泡排序算法的运作如下:比较相邻的元素,如果前一个比后一个大,就把它们两个调换位置。 对每一对相邻元素作同样...转载 2018-11-14 17:24:27 · 138 阅读 · 0 评论 -
MapReduce计数器--详解
1、MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。2、MapReduce计数器能做什么? MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,MapRedu...转载 2018-11-12 21:03:51 · 539 阅读 · 0 评论 -
InputStream 、 InputStreamReader 、 BufferedReader区别
1.InputStream、OutputStream处理字节流的抽象类InputStream 是字节输入流的所有类的超类,一般我们使用它的子类,如FileInputStream等.OutputStream是字节输出流的所有类的超类,一般我们使用它的子类,如FileOutputStream等.2.InputStreamReader OutputStreamWriter处理字符流...转载 2018-11-08 21:24:41 · 265 阅读 · 0 评论 -
IDEA打jar包---截图详解
点击左上角File-->Project Structure进入界面后点击Artifacts点击“+“号之后点击jar-->>Empty选择完Empty后,会新建一个Artifact,名字是自动生成的,1处可以修改名字,2处可以修改导出的路径,3必须要勾选双击右面的你需要的jar依赖包,他就会添加到左边1处。完成之后点击OKArtif...原创 2018-11-08 15:44:20 · 550 阅读 · 0 评论 -
数据仓库和数据库的区别
数据库:是一种逻辑概念,通过数据库软件来实现存放数据。数据库由很多表组成,表是二维的,一张表里面有很多字段。字段一字排开,对数据就一行一行的写入表中。数据库的表,在于能够用二维表现多维的关系。如:oracle、MySQL、SQL Server等。 数据仓库:从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大德多。...原创 2018-11-13 21:57:57 · 812 阅读 · 0 评论 -
hadoop web日志预处理
web日志预处理1、需求:对web访问日志中的各字段识别切分去除日志中不合法的记录根据需求,生成各类访问请求过滤数据 2、实现代码:1.定义一个bean,用来记录日志数据中的各数据字段public class WebLogBean { private String remote_addr;// 记录客户端的ip地址 private String...原创 2018-11-09 21:52:21 · 506 阅读 · 0 评论 -
xshell绝佳配色
xshell的主题颜色配置,主要是以暗色为主。下图有样式首先: 复制这一段代码,保存到一个txt文件中,之后改名为 : song.xcs(名字自己起,但是后缀名不能改)[song]text=839496cyan(bold)=50ebfctext(bold)=ffffffmagenta=7b5175green=008000green(bold)=1cc470backgr...原创 2018-10-21 19:16:40 · 2201 阅读 · 0 评论 -
hadoop元数据管理机制
元数据管理依靠的就是Secondary namenode的工作机制首先namenode对数据的管理采用三种存储形式:内存元数据(NameSystem)磁盘元数据镜像文件(fsimage)数据操作日志文件(edits) 要想了解hadoop如何管理元数据的,就要先知道fsimage和edits是什么。(1)、fsimage文件其实是Hadoop文件系统元数据的一个永...原创 2018-10-16 21:19:16 · 769 阅读 · 0 评论 -
HDFS常用命令参数
-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [<path> 功能:显示目录信息 示例:hadoop fs -ls hdfs://hadoop-server1:9000/ --->hadoop fs -ls / 效果相同 -mkdir ...原创 2018-10-14 10:58:36 · 1678 阅读 · 0 评论 -
Hbase基本架构原理
1. HBase框架简单介绍 HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个ColumnFamily,一个Fmaily下的列位于一...转载 2018-11-25 15:59:35 · 241 阅读 · 0 评论