【hadoop】
文章平均质量分 64
Java大数据的基础源自hadoop
月疯
得到你最想要的东西,最保险的办法,那就是你能配得上你最想要的东西。机会是留给有准备的人,运气是留给有天赋的努力者。
展开
-
MapReduce案例(数据中获取最大值TopN)
案例: 案列:data.txt10 9 8 7 6 5 1 2 3 4 11 12 13 14 15 20 19 18 17 16package squencefile;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Null...原创 2022-03-21 20:57:55 · 1386 阅读 · 0 评论 -
MapJoin的原理及案例
mapJoin原理:适用于大表join小表,使用DistributedCache机制将小表存储到各个Mapper进程所在机器的磁盘空间上,各个Mapper进程读取不同的大表分片,将分片中的每一条记录与小表中所有记录进行合并合并后直接输出map结果即可得到最终结果。注:不需要进行shuffle流程,也不需要reduce处理案列:detail.txtorder_id item_id amout12 sp001 212 sp002 412 ...原创 2022-03-21 17:15:33 · 3676 阅读 · 0 评论 -
hadoop之MapReduce的案例(多表关联)
order_detail.txtitem_id item_typesp001 type001sp002 type002sp003 type002iteminfo.txtitem_id item_typesp001 type001sp002 type002sp003 type002代码部分:package squencefile;import org.apache.hadoop.conf....原创 2022-03-21 12:09:54 · 1397 阅读 · 0 评论 -
hadoop之MapReduce的案例(单表关联)
package squencefile;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.ma...原创 2022-03-20 19:54:09 · 450 阅读 · 0 评论 -
hadoop之MapReduce的案例(排序、最大值)
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4....原创 2022-03-20 17:15:37 · 1132 阅读 · 0 评论 -
windows+idea运行hadoop demo(亲测)
下载hadoop:Apache Hadoop下载下来之后以管理员身份解压:配置环境变量:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoc...原创 2022-03-20 00:45:51 · 1127 阅读 · 2 评论 -
MapReduce的API介绍
MapReduce自带的InputFormat介绍:SwquenceFile文件,<K,V>形式的二进制文件:package squencefile;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop..原创 2022-03-17 12:35:21 · 1624 阅读 · 0 评论 -
MapReduce执行流程
WordCount案例:package com.hadoop.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org...原创 2022-03-17 03:59:28 · 403 阅读 · 0 评论 -
Yarn的资源调度与隔离
三种资源调度器介绍:原创 2022-03-16 12:58:28 · 1130 阅读 · 0 评论 -
Hadoop之深入HDFS原理<二>
HDFS命令行操作:hadoop运维工程司需要掌握的命令:HDFS JAVA APIAPI文档:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.9.0/api/index.html访问入口类:FIleSystem创建目录:mkdirs上传文件:create/put或copyFromLocalFile列出目录内容:listStatus显示文件或目录的元数据:getFileStatus下载文件:o...原创 2022-03-16 03:11:48 · 426 阅读 · 0 评论 -
Hadoop之深入HDFS原理<一>
1、HDFS原理1、三大组件(NameNode、DataNode、SecondaryNameNode)2、NameNodea、作用:存储元数据(文件名、创建时间、大小、权限、文件与block块映射关系)b、数据存储目录:dfs.namenode.name.dir3、DataNodea、作用:存储真是的数据信息b、数据存储目录:dfs.datanode.data.dirc、block块:默认128M,通过dffs.blockzize设置d、副本策略:1、默认3个副本,通过dfs.r...原创 2022-03-15 20:36:01 · 293 阅读 · 0 评论 -
Hadoop之WEBUi界面功能介绍及日志配置查看
启动Hadoop服务器sbin/start-all.sh浏览器访问http:// hadoop-senior01.test.com:8088 Cluster Metrics:集群指标apps(提交、排队、运行、完成)Containers:容器数Memory:(使用的内存、总共内存、剩余内存)VCores(CPU虚拟内核书):(使用的、总共的,剩余的)Cluster Nodes Metrics:集群节点指标activenode:正在运行的decommissi...原创 2022-03-15 02:27:58 · 7680 阅读 · 1 评论 -
Hadoop的环境搭建
1、机器规划:机器1:(hadoop-senior01.test.com)机器2:(hadoop-senior02.test.com)机器3:(hadoop-senior.test.com)NameNode DataNode DataNodeDataNode ...原创 2022-03-14 20:32:25 · 246 阅读 · 0 评论 -
Hadoop单机和伪分布式环境搭建
hadoop环境搭建1.三个环境 单机、伪分布式、分布式2、三个分支 apache版本(Apache基金会) cdh版本(cloudera公司) hdp版本(HortOnWorks公司)3、http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.9.0.tar.gz解压:tar -zxvf /opt/software/hadoop-2.6.0-cdh5.9.0.tar.gz -C /opt/mo...原创 2022-03-14 12:42:22 · 1498 阅读 · 0 评论 -
虚拟机搭建CentOS(Zookper、kafka、Redis)集群搭建(07)
zookeeper集群过程:具体安装涉及到修改配置文件:/usr/local/software/zookeeper/conf1、zoo.cfg(改动地方2处)zookeeper存放数据节点:dataDir=/usr/local/software/zookeeper/data2、zookeeper集群的节点#2888:作为leader启用的端口#3888:作为follower,推选leader时所用的口server.100=page01:2888:3888server.101=page原创 2022-03-13 20:58:08 · 123 阅读 · 0 评论 -
虚拟机搭建CentOS Hadoop集群搭建(06)
编写xcall.sh脚本,方便在集群中的每个节点上面执行相同命令linux参数介绍:$? //访问上次命令执行结果$# //参数个数$@ //提取所有参数$1 //提取第几个参数$0 //脚本本身首先通过echo $PATH查看命令搜索路径echo $PATH然后登陆到/usr/local/bin/目录下面,创建.hosts文件随后编写核心脚本:#!/bin/bash#遍历集群列表所有机器for host in ...原创 2022-03-13 19:59:02 · 67 阅读 · 0 评论 -
虚拟机搭建CentOS Hadoop集群搭建(01)
忽略直接开始进入:设置root密码:创建管理员账户:安装好了。安装好的centos可以直接访问外网,但是出现问题查看虚拟网络设置:输入ip addr,网卡是eno16777736,没有联网解决办法:1、输入ip addr2、输入cd /etc/sysconfig/network-scripts/3、输入ls -al(查看到ifcfg-neo16777726)...原创 2022-03-06 02:50:12 · 46 阅读 · 0 评论 -
虚拟机搭建CentOS Hadoop集群搭建(02)
安装yum源:就像maven一样从远程下载软件,阿里巴巴提供的。http://mirrors.aliyun.com/repo/Centos-7.repo下载winscp连接虚拟机的文件传输:上传出现bug:解决方案:在服务器使用命令:find / -name sftp-server -print我的服务器输出结果:/usr/libexec/openssh/sftp-server点击ok重新启动!还是有问题,存在一个问题,我可能是把root密码和...原创 2022-03-08 20:28:19 · 79 阅读 · 0 评论 -
虚拟机搭建CentOS Hadoop集群搭建(03静态ip配置以及安装jdk)
虚拟机静态ip配置:宿主机和客户机:windows上安装虚拟机,windows相当于宿主机,linux的虚拟机相当于客户机。宿主机和客户机连接方式 宿主机和客户机之间通讯 客户机是否可以访问外网 涉及网卡 桥接(bridge) 可以 不可以 VMnet0 nat(默认) 不可以 可以 VMnet8 仅主机host-only 不可以 不可以 VMnet1 (1)仅主机模式host-only这种网络连接方式的特点原创 2022-03-09 15:46:44 · 922 阅读 · 0 评论 -
虚拟机搭建CentOS Hadoop集群搭建(04)
配置SSH免密码登录(NameNode)1、SSH免密码登录的作用通过SSH免密码登录这种机制,只要知道远程机器的主机名(hostname),通过shell命令就可以登录到远程的机器,而不用输入远程机器的密码(第一次ssh的时候需要输入一下yes);同时通过ssh免密码登录不用手动启动相应的进程!除此之外,也可以通过上面的秘钥文件进行无密码登录验证方式:ssh 主机名2、SSH免密码登录原理假设hadoop11向服务器hadoop22发送请求登录,hadoop22会将hadoop11中的公钥和自己原创 2022-03-13 18:58:55 · 104 阅读 · 0 评论 -
虚拟机搭建CentOS Hadoop集群搭建(05)
hadoop的安装步骤:1、tar打开文件到指定目录tar -zxvf hadoop-2.7.3.tar.gz -C /usr/local/software/2、创建软连接ln -s /usr/local/software/hadoop-2.7.3 /usr/local/software/hadoop3、编辑etc/profile文件#最后一行export HADOOP_HOME=/usr/local/software/hadoopexport PATH=$PATH:$HADOOP_HOME.原创 2022-03-13 19:07:28 · 46 阅读 · 0 评论 -
Hadoop生态圈介绍
hadoop生态:1、hadoop的核心组件:(hdfs)分布式存储、(mapReduce)分布式计算、(Yarn)资源调度与任务管理、Common2、Lucene:索引检索工具包3、Nutch:开源的搜索引擎4、HBase/Cassandra:基于google的BigTable开源的列式存储的非关系型数据库5、Hive:基于SQL的分布式计算引擎,同时是一个数据仓库6、Thrift/Avro:Rpc框架,用户网络通讯7、BigTop:项目测试、打包、部署8、Oozie(乌贼)/Az...原创 2022-03-13 15:35:40 · 3496 阅读 · 0 评论 -
Hadoop之MapReduce介绍
MapReduce: 1、计算过程分为俩个阶段,Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总2、Shuffle连接Map和Reduce俩个阶段Map Task将数据写到本地磁盘Reduce Task从每个MapTask上读取一份数据3、仅适合离线批处理具有很好的容错和扩展性适合简单的批处理任务4、缺点明显系统开销过大、过多使用磁盘导致效率低下执行流程:编程模型:map阶段进行拆分,Reduce阶段进行聚合文字介绍:.原创 2022-03-13 15:19:38 · 1561 阅读 · 0 评论 -
Hadoop之YARN介绍
yarn:资源调度和任务管理a、四大组件:(四个进程)ResourceManager(Rm):主进程Nodemanager(NM):各个机器节点管理器ApplicationMaster(AM):申请资源Container容器:处理各个节点分布式作业的YARN架构介绍:YARN执行流程:1、client连接RM提交作业,RM给client一个JobId(ApplicationManager和ResourceScheduler)2、RM中的Application...原创 2022-03-13 14:48:36 · 5187 阅读 · 0 评论 -
hadoop概念介绍
Apache Lucene(开源高性能全文检索工具包)apache Nutch(开源web搜索引擎)Google的三大论文(GFE\MapReduce\BigTable)Apache Hadoop(大规模数据处理)1、hadoop的发展1> 搜索引擎:网络爬虫+索引服务器(生成索引+检索)2>Doung Cutting写了Lucene工具包(生成索引+检索)3>Nutch搜索引擎:网络爬虫+索引服务器(Lucene封装) 不能解决分布式存储 不能解决分布...原创 2022-03-13 14:23:33 · 2409 阅读 · 0 评论