![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
GoodMorning_可口可乐
拐过转角,风景不一样的美。
展开
-
Hadoop基于词频统计例子
package com.imooc.bigdata.hadoop.project.mrv2;import com.imooc.bigdata.hadoop.project.utils.LogParser;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Nul原创 2021-08-04 16:15:06 · 195 阅读 · 0 评论 -
hadoop基于省份数据统计例子
package com.imooc.bigdata.hadoop.project.mrv2;import com.imooc.bigdata.hadoop.project.utils.LogParser;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongW原创 2021-08-04 16:13:42 · 153 阅读 · 0 评论 -
Hadoop系统入门之原始数据ELT操作例子
package com.imooc.bigdata.hadoop.project.mrv2;import com.imooc.bigdata.hadoop.project.utils.GetPageId;import com.imooc.bigdata.hadoop.project.utils.LogParser;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import原创 2021-08-04 16:12:27 · 168 阅读 · 0 评论 -
Hadoop系统入门之Hive必考的SQL功能及窗口函数
窗口函数:行列转换从累计问题谈起窗口函数案例实战MR/HIVE SQL ON HADOOP SQLdata:HDFSmetodata:RDBMS MYSQL 存储: 压缩,存储格式 计算: SQL skew:分场景逐个击破。 存储: 小文件 定时: 小文件,合并,告警。...原创 2021-08-04 16:11:14 · 83 阅读 · 0 评论 -
Hadoop系统入门之压缩在大数据中的使用
Hadoop整合压缩在大数据中的应用为什么使用压缩压缩的使用场景常见压缩格式压缩和解压缩实战Hadoop整合压缩的使用Why单击: 磁盘空间的限制Hadoop/HDFS:DN是用来存储数据用的 要对HDFS上的数据进行压缩==>减少存储在HDFS上数据所占用的空间1T==>300G3T 900GINPUT==>MR==>OUTPUT好处:减少HDFS读写数据量:DISK IO提升网络传输效率:网络IOShuffle是所有分布式计算框架中一个主要的原创 2021-08-04 16:09:59 · 96 阅读 · 0 评论 -
Hadoop系统入门之Hadoop3.x新特性及实操
Hadoop3.x新特性及实操Hadoop3x新特性云服务器ECS的使用ECS上基础软件部署基于ECS部署Hadoop3xHadoop3x使用将项目运行在Hadoop3x上Hadoop3x新特性JDKErasure CodingYARN Timeline Service V2EC: 纠错码一个数据保护技术。通信行业中的数据传输中数据恢复的一种编码容错技术。核心思想: 校验数据。出现问题,可以借助EC技术来进行恢复。校验数据块 原始数据进行重新编码原始数据块原创 2021-08-04 16:07:23 · 107 阅读 · 0 评论 -
Hadoop系统入门之Hadoop的特性在生产上的使用
HDFS上的数据基本上是不删除:HDFS生产上回收站是一定要开启的,我司是1天单位是分钟。思考题: HDFS API delete 数据是否会走垃圾桶:大数据作业/应用程序 通过API去调用HFDS文件系统的删除操作虽然是删除东西在垃圾桶中了,但是此时数据其实都在HDFS上HDFS的block大小并为发生变化。...原创 2021-08-04 16:05:36 · 56 阅读 · 0 评论 -
Hadoop系统入门之(讨论群内直播内容分享)Hadoop小问题剖析
小文件问题:Hadoop存储TB甚至更大级别的数据集。File==>block==>3==>DN directory元数据信息 NN 内存100M vs 1k什么是小文件:CDH blocksize 128M 64M128M 200M ???64M 200M ???256M 200M ???blocks==> 元数据信息1M 20M?NN的内存是多少?能存储多少block.文件怎么产生的?故障: 解决==>为什么会产生这个故障?==>解决原创 2021-08-04 16:03:16 · 57 阅读 · 0 评论 -
Hadoop系统入门之Join在MapReduce中的实现
MapReduce:Interview: 描述如何使用MapReduce来实现join的功能。考察点:1)MapReduce执行流程。2)JOIN的底层执行过程。3)JOIN的多种实现方式: ReduceJoin(shuffle),MapJoin(没有reduce,换句话说就是没有Shuffle)。resume:1)最新的项目是写在最前面的2)写的东西一定要真正的(区分)3)从你写的东西开始面起,然后逐步扩展==》你的技能/技术的一个功能链条。ReduceJoin数据通过Mappe原创 2021-08-04 16:01:48 · 251 阅读 · 0 评论 -
Hadoop系统入门之Hadoop集群部署
Hadoop集群部署Hadoop集群规划Hadoop集群部署前置安装作业提交到Hadoop集群运行JDK安装Hadoop集群规划HDFS: NN DNYARN: RM NM前置安装 ssh(每台)ssh免密码登陆在hadoop000机器上进行caozuoJDK安装1)先在hadoop000机器上部署了jdk2)将jdk binJDK安装1)先在hadoop000机器上部署了jdk2)将jdk bin...原创 2021-08-04 15:59:05 · 67 阅读 · 0 评论 -
Hadoop系统入门之数据仓库Hive
Hive产生的背景:MapReduce编程的不方便传统关系型数据库的需要Hive概述之Hive是什么由Facebook开源,用与解决海量结构化日志的数据统计问题。构建再Hadoop之上的数据仓库。Hive提供的SQL查询语言: HQL。底层支持多种不同的执行引擎。HDFS上的文件并没有schema(数据组织结构)的概念。Hive底层执行引擎支持: MR/Tez/Sperk.统一元数据管理:Hive数据是存放在HDFS.元数据信息(记录数据的数据)是存放在MySQL中。SQL on原创 2021-08-04 15:52:47 · 182 阅读 · 0 评论 -
Hadoop系统入门之hadoop项目知识总结
电商项目实战用户行为日志 需求实现电商常用术语 提交到服务器运行项目需求 扩展数据处理流程及技术架构用户行为日志:每一次访问的行为(访问,收索)产生的日志历史行为数据<==历史订单电商专业术语:1. Ad Views(广告浏览): 网上广告被用户浏览的次数。2. PV(访问量): 即Page View。页面浏览量,用户每次刷新即被计算一次。网站各网页被浏览的总次数。一个访客有可能创造十几个甚至更多的浏览量。或者这样理解:用户在你的网站上打开网页的次数,浏原创 2021-08-04 15:01:45 · 185 阅读 · 0 评论 -
Hadoop系统入门之资源调度框架YARN
资源调度框架YARNYARN产生背景YARN执行流程YARN概述YARN架构提交作业到YARN上执行YARN产生背景:MapReduce1.x==>MapReduce2.xMaster/slave : JobTracker/TaskTrackerJobTracker: 单点,压力大仅仅只能够支持mapreduce作业资源利用率 所有的计划框架运行一个集群中,共享一个集群的资源,按需分配!YARN概述Yet Another Resource Negotiator通用的资源原创 2021-08-04 14:49:24 · 113 阅读 · 0 评论 -
Hadoop系统入门之分布式计算框架MapReduce
课程目录:分布式处理框架MapReduceMapReduce概述MapReduce编程模型详解MapReduce实战分布式计算框架MapReduceMapReduce概述:源自于Google的MapReduce论文,论文发表于2004年12月。Hadoop MapReduce是Google MapReduce的克隆版。MapReduce优点: 海量数据离线处理&易开发&易运行。MapReduce缺点: 实时流式计算。MapReduce编程模型之通过wordcount词频原创 2021-08-04 14:47:26 · 124 阅读 · 0 评论 -
Hadoop系统入门之分布式文件系统HDFS
HDFS概述:1)分布式2)commodity hardware3)fault-tolerant 容错4)high throughput5)large data setsHDFS是一个分布式的文件系统文件系统:Linux,windows,Mac…普通文件系统 vs 分布式文件系统 单机。 分布式文件系统能够横跨N个机器。HDFS前提和设计目标: Hardware Failuer 硬件错误 每个机器只存放在不同的机器上的,由于容错,HDFS默认采用3副本机制。 Strea原创 2021-08-04 14:40:33 · 77 阅读 · 0 评论 -
Hadoop系统入门之初识hadoop
初识HadoopHadoop 概述Hadoop 生态系统Hadoop 核心组件Hadoop 发行版的选择Hadoop 优势Hadoop 发展史Hadoop概述之Hadoop名字的Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名。Nutch,Hadoop: Doug CuttingSpring:学习一个新的框架,我的风格是直接查看该项目的官网地址:HadoopHiveApache社区的顶级项目: xxxx.apache.org hadoop.apache.or原创 2021-08-04 14:15:01 · 100 阅读 · 0 评论 -
Hadoop系统入门之概述
大数据生态圈:Hadoop生态圈。Spark生态圈。课程安排:大数据概述初识Hadoop分布式文件系统HDFS分布式资源调度YARN分布式计算框架MapReduceHadoop项目实战数据仓库HiveHive项目实战Hadoop分布式集群搭建环境参数Linux版本:CenOS(7)Hadoop版本:CDH(5.15.1)大数据概述:大数据故事大数据的技术概念什么是大数据大数据带来的挑战大数据带来的技术变革大数据典型应用大数据现存的模式案例:什么是大数据:原创 2021-08-04 14:03:50 · 95 阅读 · 0 评论