大数据
文章平均质量分 84
我辈岂是蓬蒿人225
青梅煮酒
展开
-
Hadoop入门指南之表连接操作
在分析大数据时,有时需要处理多个表,表与表之间通过主键和外键关联。在分析的时候就需要把多个表关联起来,在sql中通常是使用join连接查询,在hadoop中也可以实现join操作来完成需求。假设现在有两个数据文件,分别为students.txt和score.txt:s001,张三,男s002,小梅,女c001,s001,语文,92c002,s001,数学,88c003,s001,英语,90c004,s002,语文,95c005,s002,数学,92c006,s002,英语,91原创 2021-02-07 09:37:30 · 351 阅读 · 0 评论 -
Hadoop入门指南之yarn介绍
讲完了hadoop的HDFS和MapReduce之后,还剩下最后一个部分,那就是yarn集群。yarn是从hadoop2.0开始引入的,它负责管理集群中的资源(主要是硬件资源,内存、cpu、存储器等),以及调度运行在yarn上的各种任务。yarn把资源管理和作业监控进行了分离,分别用资源管理器(ResouceManager)和应用管理器(ApplicationMaster)来管理。我们可以用http://node01:8088/cluster来查看yarn集群的监控管理界面。yarn总体上是一个原创 2021-02-03 09:40:22 · 212 阅读 · 0 评论 -
Hadoop入门指南之分组实战
介绍完了Shuffle的分区、排序、规约之后,还有最后一个阶段,就是分组。分组就是把符合同一规则的数据分在同一组,由同一个Reducer处理。还是用库存的例子,现在是这样的一组数据:p004,2021-01-05,9,1p001,2021-01-08,2,1p004,2021-01-01,5,2p003,2021-01-07,3,1p003,2021-01-01,8,1p004,2021-01-05,2,2p002,2021-01-03,3,3p002,2021-01-07,6,原创 2021-02-02 16:18:01 · 251 阅读 · 0 评论 -
Hadoop入门指南之排序实战
排序是指按照自定义的排序规则,对数据进行排序,输出时,数据是按照排序组织的。排序往往还伴随着序列化,序列化指的是把Java对象转化成字节流来传输,到达指定位置再反序列化成Java对象,这样就提升了网络传输的速度,减轻了网络传输的压力。...原创 2021-02-01 10:49:18 · 219 阅读 · 0 评论 -
Hadoop入门指南之分区、规约实战
上一篇通过统计库存实战来展示了Map和Reduce阶段,现在来介绍Shuffle阶段的分区和规约。分区是指根据一定的规则,把数据分成若干个区,分别给不同的Reducer进行处理,最后输出时,相同区的结果会在一个输出文件中,比如分了3个区,最后就会有3个输出文件。规约英文叫Combiner,我不太明白为什么中文翻译成了规约这个拗口的名称,也不易理解。我的理解就是合并,把相同的key的value合并成一个数据,让Reducer处理。因为Map完的数据在经过Shuffle阶段后,是通过网络来传输给Redu原创 2021-02-01 09:55:21 · 206 阅读 · 0 评论 -
Hadoop入门指南之HDFS介绍
Hadoop是Apache的顶级子项目,用于进行大数据处理。其支持使用JavaAPI进行操作,实现大数据分析的用途。Hadoop分为HDFS和MapReduce两个部分,该分篇主要介绍HDFS。HDFS(Hadoop Distributed File System)是指Hadoop对分布式文件系统的实现。分布式文件系统指的是使用集群的方式组织文件系统。具体来说就是多台机器和多个存储设备,每个存储设备贡献一部分或全部的存储空间,来共同存储大文件的一个文件系统。这个大文件被HDFS分割成一个一个小的文件块(原创 2021-01-26 16:40:14 · 141 阅读 · 0 评论 -
Hadoop入门指南之统计库存实战
Hadoop系列文章索引:Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs命令行使用.Hadoop入门指南之MapReduce介绍介绍完了基本思想和流程,下面需要开始一个实际案例来掌握MapReduce的代码书写方式了。现在假设有个小商店,有一批库存,需要我们统计仓库里每样商品具体有多少件。当然,不用MapReduce也是可以的,只是想象一下,原创 2021-01-28 15:47:36 · 216 阅读 · 0 评论 -
Hadoop入门指南之MapReduce介绍
Hadoop的第二部分就是MapReduce,在介绍完HDFS后,就需要谈到MapReduce了。MapReduce其实生活中大家都接触过,只是不是这个叫法。比如大家参加军训或者集会,需要统计到场人数时,是怎么做的呢。首先把所有人按照部门、方阵等划分成小单位,然后每个单位有个队长一样的人员负责统计自己负责的单位的人数,最后由所有队长汇报给领导,领导汇总后得出一个总人数。这里每个队长数各自单位的人数就是Map,领导听取队长报告汇总人数就是Reduce。这其实就是MapReduce的核心思想。当需要对大量数据进原创 2021-01-28 13:58:21 · 174 阅读 · 4 评论 -
Hadoop入门指南之hdfs命令行使用
搭建好Hadoop运行环境之后,就可以开始学习使用Hadoop了。在真正使用JavaAPI操作Hadoop之前,需要先学习如何使用hdfs的命令行。hdfs的常用命令行包括了查看目录、新建目录、上传文件、下载文件、移动文件、删除文件或目录、拷贝文件或目录、查看文件、权限和用户组操作以及合并文件。在确认hadoop在运行的情况下,打开浏览器,输入地址http://node01:50070/explorer.html#/,这里可以看到hdfs文件系统的目录。现在开始学习使用命令行操作,以下命令行操作原创 2021-01-28 11:01:42 · 369 阅读 · 0 评论 -
Hadoop入门指南之Hadoop安装
继上两篇文章搭建好Linux集群和必要软件后,开始进行hadoop的安装。以下未特别说明,均是指在node01的虚拟机上操作。hadoop这里使用hadoop-2.7.5的版本,网上下载的需要做处理才能支持bzip和snappy算法,我在网盘里上传了处理好的安装包。链接:https://pan.baidu.com/s/1ulwE3Rzk2xBNz5hqdf_K5g提取码:3h8x下载好之后cd /export/softwares,然后rz -E上传hadoop-2.7.5.tar.g..原创 2021-01-27 16:30:01 · 211 阅读 · 0 评论 -
Hadoop入门指南之Linux软件安装
搭建好Linux集群环境后,开始安装运行hadoop必要的软件。运行rpm -qa | grep java来查看系统是否安装了java环境。如果有输出内容,可以运行rpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_8.x86_64 --nodeps来卸载java,-e后面跟的就是输出的内容原创 2021-01-27 13:25:05 · 113 阅读 · 0 评论 -
Hadoop入门指南之Linux环境搭建
在继续学习HDFS的操作之前,需要先搭建Hadoop的运行环境。首先需要准备的是两台及以上的Linux服务器。这里介绍在Windows系统下,使用VMware软件创建CentOS虚拟机的方式搭建Linux服务器。先在网上下载VMware软件以及CentOS6的镜像文件,请自行搜索资源。安装好VMware后先进行网络设置:1、确认服务都开启这四个跟VMware相关的服务都必须是正在运行的状态,启动类型也设为自动。2、确认VMware的网关地址打开 编辑—>虚拟网络编辑器原创 2021-01-27 10:02:32 · 204 阅读 · 0 评论