![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据之hadoop
学习 笔记 总结
白眼黑刺猬
技术分享 ,线上线下授课
微信 17710299606
展开
-
DOIT20-HDP02
1 HDFS的shell客户端[root@linux01 ~]# hdfs dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] ...原创 2020-12-16 09:51:16 · 1456 阅读 · 2 评论 -
hadoop详细笔记(十九)原理加强Yarn调度策略详解
免费视频教程https://www.51doit.com/或者联系博主微信 177102996061 FIFOhadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。比如排在最前面的job需要若干maptask和若干reducetask,当发现有空闲的服务器节点就分配给这个job,直到job执行完毕。2 Capacity Scheduler在Yarn框架中,调度器是一块很重要的内容。有了合适的调度规则,就可以保证多个...原创 2020-07-14 15:02:48 · 1402 阅读 · 0 评论 -
hadoop详细笔记(十八)原理加强mapreduce程序在yarn上的运行流程
免费视频教程https://www.51doit.com/或者联系博主微信 17710299606详细步骤在上面的两张图中 , 大家仔细研读!1、客户端client向YARN主节点ResourceManager提交作业job 比如统计4G文件中每个单词出现的次数统计结果在hadoop环境下提交作业的语句:bin/yarn jar XXX.jar MainClass args2、主节点ResourceManager在某个DataNode从节点上启动一个Container运行app...原创 2020-07-14 14:50:38 · 594 阅读 · 0 评论 -
hadoop详细笔记(十七) 将MapReduce程序提交到Yarn上运行
免费视频教程https://www.51doit.com/或者联系博主微信 177102996061 windows上System.setProperty("HADOOP_USER_NAME", "root");Configuration conf = new Configuration();// 设置访问的集群的位置conf.set("fs.defaultFS", "hdfs://doit01:9000");// 设置yarn的位置 conf.set("mapreduce.fr...原创 2020-07-14 14:42:33 · 1373 阅读 · 0 评论 -
hadoop详细笔记(十六) Yarn简介和安装
免费视频教程https://www.51doit.com/或者联系博主微信 177102996061 yarn简介YARN是一个运算资源(cpu 内存 网络 Io....)管理系统,主要负责集群资源的管理和调度监控任务进度 , 如果要将程序运行在yarn上需要两个组件 , 客户端和yarn这两个组件在编程的过程中非常复杂!!2 yarn安装配置在yarn-site.xml中配置信息<configuration><!-- resource,m...原创 2020-07-14 14:32:26 · 545 阅读 · 0 评论 -
hadoop详细笔记(十五) MR原理加强(mapreduce内部处理数据流程和shuffle详解)
1 MR内部处理数据流程mr程序分为map端和reduce端,来进行处理数据,mr程序在运行的时候最先启动的程序就是MRAppMaster,MRAppMaster是可以读到在job提交的时候的参数信息,所以它可以根据参数信息,来启动对应数量的maptask和reducetask,在maptask启动后,会读取自己对应的任务切片,以逐行读取的方式,一个K,V执行一次map()方法,K为起始偏移量,V为行内容 在map()方法执行完一次后,会将数据写入到环形缓冲区中,当环形环形缓冲区中的数据存储达到原创 2020-07-14 14:14:41 · 1525 阅读 · 0 评论 -
hadoop详细笔记(十五) mapreduce数据分析案例之高效topN
电影案例中的求每部电影评论分数最高的前N条记录需求 ,我们的解题思路是这样的:以电影的ID为KEY,以电影数据为Value输出到Reduce端 , Reduce端再将同一部电影的所有的评论记录存储在list集合中,对list集合按照评论分数的降序排列! 输出前N条数据高效topN实现思路如下 :我们将整个电影Bean放在Map的key的位置, 在MR内部是默认按照Key进行排序 , Key分区 , Key分组的!所以如果我们将Bean放在KEY的位置需要做一下三件事自定义的类要序列化和可原创 2020-07-14 10:23:26 · 1709 阅读 · 0 评论 -
hadoop详细笔记(十四) mapreduce数据分析案例之共同好友案例
1数据A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J2需求获取任意两个人之间的共同好友比如 A和B共同好友是: [E, C] A和C共同好友是: [D, F] B和F共同好友是: ...原创 2020-07-14 10:04:02 · 889 阅读 · 0 评论 -
hadoop详细笔记(十三) mapreduce数据分析案例之实现SQL JOIN语法
1 数据1.1 user.txtu001,hls,22,fengjieu002,wangwu,31,lisiu003,zhangyanru,22,tananpengyouu004,laocao,26,fengyiu005,mengqi,12,nvmengqiu006,haolei,38,sbu007,wanghongjing,24,wifeu009,wanghongjing,24,wife1.2 orders.txtorder011,u001,300order012,.原创 2020-07-12 12:41:58 · 831 阅读 · 0 评论 -
hadoop详细笔记(十一) mapreduce数据分析案例之线段重叠案例
1 数据1,42,53,42,52,43,42,62 需求统计x轴上每个点线段重叠的次数3 代码实现package com._51doit.mr.line;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWrita原创 2020-07-10 15:13:29 · 859 阅读 · 0 评论 -
hadoop详细笔记(十) mapreduce数据分析案例之流量案例
数据手机号 URL 上行流量 下行流量13026230503 http://v.baidu.com 20 500013826544101 http://www.weibo.com 20 500013926435656 http://v.baidu.com/tv 20 500013560439658 http://www.edu360.cn 10 400013926251106 https://www.jianshu.com/p/b...原创 2020-07-10 12:04:44 · 972 阅读 · 0 评论 -
hadoop详细笔记(九)-MapReduce入门程序
1 简介MapReduce是Hadoop中的一个用于海量数据运算的组件, 分布式并行对海量数据运算!运算模型分为两步 :第一步 Map阶段: 对待处理的海量数据分任务 , 默认按照文件的个数和大小分(HDFS数据存储逻辑切块),一个任务一个Maptask-->机器 ,关注点--> map阶段处理数据的逻辑 --输出中间结果(缓冲区)中间:缓存区 接收map的输出, 分区(几个区 sst) , 区内排序 , 区内分组分区: 为了给reduce分任务 , key.hash...原创 2020-07-10 11:14:41 · 876 阅读 · 0 评论 -
hadoop详细文档(八)MapReduce基础
原创 2020-07-09 16:54:09 · 607 阅读 · 0 评论 -
hadoop原理加强之HDFS读写流程[上传下载流程和原理]
1 写数据流程(上传)1 客户端请求namenode上传文件数据(大小 , 物理切块大小, 副本个数)2 namenode接收到客户端的上传请求以后, 各种校验(权限 , 存储容量,分配元数据信息)3 客户端收到namenode的ok响应4 客户端请求namenode上传第一块数据, NN返回第一块数据的元信息5 客户端和返回的元数据中的3台机器建立连接通道 ,6 返回OK7 客户端本地读取待上传文件的第一块数据的内容 io.read length=128M8 本地流..原创 2020-07-09 12:40:21 · 709 阅读 · 0 评论 -
hadoop详细文档(七) HDFS原理加强(附带详细讲解视频)
1 写数据流程(上传)2 读数据流程(下载)3 数据存储位置特征4 namenode和datanode5 namenode管理元数据原创 2020-07-08 18:04:52 · 1322 阅读 · 0 评论 -
hadoop详细文档(六) hadoop之HDFS的java客户端(附带详细讲解视频)
免费视频教程https://www.51doit.com/或者联系博主微信 17710299606使用idea创建java项目添加hdp需要的jar包1 入门程序(创建文件夹)/** * @Auther: 多易教育-行哥 * @Date: 2020/7/8 * @Description: 使用java程序 操作HDFS文件系统 * 1 获取代表这个文件系统的对象 * 1)hdfs的位置 2) 配置对象 3) 用户名 * 2 操作 */public cla...原创 2020-07-08 11:03:50 · 1348 阅读 · 0 评论 -
hadoop详细文档(五) hadoop之HDFS的SHELL客户端(附带详细讲解视频)
只要在系统中配置HADOOP的环境变量, 可以在任意的位置输入bin和sbin下的命令!hdfsUsage: hdfs [--config confdir] [--loglevel loglevel] COMMAND where COMMAND is one of: dfs run a filesystem command on the file systems supported in Hadoop. classpath ...原创 2020-07-08 10:15:17 · 683 阅读 · 0 评论 -
hadoop详细文档(四) hadoop之HDFS安装详解(附带详细讲解视频)
免费视频教程https://www.51doit.com/或者联系博主微信 177102996061 安装详细步骤1.1上传HDP的安装包到Linux01 机器的指定目录下1.2 解压到指定的目录下tar -zxvf hadoop-2.8.5.tar.gz1.3 目录结构1.4 修改配置文件配置文件的目录在/opt/apps/hadoop-2.8.5/etc/hadoop/下 1.4.1 vi hadoop-env.sh配置Had...原创 2020-07-07 11:21:07 · 924 阅读 · 0 评论 -
hadoop详细文档(三) hadoop之HDFS简介(附带详细讲解视频)
免费视频教程https://www.51doit.com/或者联系博主微信 17710299606\首先要明确的是HDFS 全称(Hadoop Distribute FIleSystem) Hadoop的分布式文件系统,它的主要职责是分布式存储海量数据!就是将海量的数据存储在不同的机器上来完成单节点无法存储大量数据的问题!1 核心设计思想1) 将海量的数据分别存储在不同的机器上 1. 将数据切块存储 默认块大小是 128M----> 可修改 * ...原创 2020-07-07 10:27:35 · 762 阅读 · 0 评论 -
hadoop详细文档(二) 什么是hadoop(附带详细讲解视频)
官方网站: http://hadoop.apache.org/视频连接https://www.51doit.com/或者联系微信 177102996061 什么是hadoopApache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是设计用来依靠硬件来提供高可用性,而是旨在检测和处理应用程序层的故障,因此可以在计算机集群的顶部提供高可用性的服务,而每台计算机都容...原创 2020-07-07 09:37:03 · 519 阅读 · 0 评论 -
hadoop详细文档(一) 大数据概述(附带详细讲解视频)
1 大数据背景现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。[2]在现今..原创 2020-07-07 09:29:04 · 853 阅读 · 0 评论 -
hadoop是个什么玩意
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放...原创 2020-06-05 15:34:46 · 2936 阅读 · 0 评论 -
5分钟了解大数据
大数据的基本概念 大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强大的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费大量的时间和金钱。大数据主要解决两个主要问题海量数据的存储 : 例如分布式存储文件系统 : HDFS 海量数据的运算: 例如分布式运算框架 : MAPREDUCE,SPARK等什么是分布式...原创 2020-06-05 15:31:42 · 2802 阅读 · 0 评论