![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 82
黑马程序员官方
国内公认的好口碑IT教育机构,持续提供优质免费资源,让千万学子少走弯路!
黑马程序员是A股上市公司传智教育旗下子品牌,已培养30余万IT人才,每10名学员有7名来自老学员推荐。
展开
-
干货丨Hadoop安装步骤!详解各目录内容及作用
Hadoop是Apache基金会面向全球开源的产品之一,任何用户都可以从Apache Hadoop 官网下载使用。今天,播妞将以编写时较为稳定的Hadoop2.7.4版本为例,详细讲解Hadoop的安装。先将下载的hadoop-2.7.4.tar.gz安装包上传到主节点hadoop01的/export/software/目录下,然后将文件解压到/export/servers/目录,具体指令如下。$ tar -zxvf hadoop-2.7.4.tar.gz -C /export/servers/执行原创 2021-10-07 14:30:03 · 380 阅读 · 0 评论 -
2021云计算大数据自学知识点(完整版路线)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、Java编程语言基于大数据学Java文章合集二、Linux三、数据库四、zookeeper五、Hadoop六、Spark实战前言前言:随着数据对生产、生活越来越重要,数据分析也逐渐成为一门显学,在各个领域中都发挥着重要的作用。国家现状衍生出统计学,从博彩诞生的概率论,味数据分析奠定了基础。从霍乱神医斯诺,到护理之祖南丁格尔,从二战日本的自杀袭击,到一球成名中的”金金“计较的球队经理,从商业智能到公司治理,从大数据到人工原创 2021-04-14 16:26:39 · 723 阅读 · 0 评论 -
大数据入门难?自学大数据基础入门知识点合集
大数据系列文章知识点理解大数据相关概念、特点、应用场景掌握大数据业务分析基本步骤 掌握分布式、集群相关概念掌握Hadoop相关概念、Hadoop架构掌握Hadoop集群搭建掌握Hadoop各组件模块功能 了解HDFS基准测试文章目录大数据系列文章知识点大数据学习开篇:了解大数据导论、清楚大数据应用领域和前景大数据学习连载02篇:业务分析步骤、数据的收集、整理、展现以及工作报告大数据学习连载03篇:分布式技术(集群、负载、弹性、故障等知识点)大数据学习连载04篇:Hadoop概述(发展原创 2021-04-08 18:36:41 · 269 阅读 · 0 评论 -
HDFS入门和应用开发:实战微博HDFS案例(下)
继上一篇文章,我们继续实战学习HDFS微博案例。十一、需求:追加数据到HDFS数据文件在数据集中有一个caixukun_new.csv数据集,是20190811这一天重新生成的数据。我们需要将这个文件上传到HDFS中。有两种做法:直接将新文件上传到HDFS中20190811文件夹中。 将新文件追加到之前的数据文件caixukun.csv中。这里,我们更倾向于使用第二种方案。HDFS设计的初衷就是存储超大型的文件,文件数量越少,也可以减小HDFS中的NameNode压力。(1)append原创 2021-04-02 17:11:26 · 803 阅读 · 0 评论 -
HDFS入门和应用开发:实战微博HDFS案例(上)
一、背景微博有大量的用户数据,为了分析微博用户的行为。我们可以将微博的数据上传到HDFS,然后供其他大规模文本、情感分析程序来处理。二、HDFS目录规划当前我们的HDFS集群中应该是空空如也。因为我们并没有做任何的文件操作。为了方便我们将来管理文件系统,我们也对HDFS需要有一个目录规划,就像Linux一样。目录规划: 目录 说明 /source 用于存储原始采集数据 /common ..原创 2021-04-02 16:59:21 · 1182 阅读 · 0 评论 -
自学大数据入门全套学习资料(视频+课程大纲+笔记)
目录:大数据课程导论 分布式技术 Apache Hadoop概述 Hadoop集群搭建 Hadoop初体验 Hadoop HDFS基准测试学习目标理解大数据相关概念、特点、应用场景 掌握大数据业务分析基本步骤 掌握分布式、集群相关概念 掌握Hadoop相关概念、Hadoop架构 掌握Hadoop集群搭建 掌握Hadoop各组件模块功能 了解HDFS基准测试课程链接:大数据……Hadoop完整教程:http://yun.itheima.com/course/301.htm原创 2021-04-02 16:38:14 · 1207 阅读 · 1 评论 -
HDFS入门和应用开发:HDFS简介、发展历史、设计目标以及应用场景
一、HDFS简介HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目,它的设计初衷是为了能够支持高吞吐和超大文件读写操作 HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的,适应于具有大数据集的应用程序,它非常适于存储大型数据 (比如 TB 和 PB) HDFS使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。二、HDFS发展历史Doug Cutting 在做原创 2021-04-01 14:29:04 · 1071 阅读 · 0 评论 -
HDFS入门和应用开发场景案例:如何模拟实现分布式存储?
如何解决海量数据存的下问题1.传统式存储方式应对文件存储服务,传统做法是在服务器上部署文件服务比如FTP。但是随着数据变多,会遇到存储瓶颈。此时,本能的操作反应是:内存不够加内存,磁盘不够加磁盘—单机纵向扩展。但是单机能够扩展的内存磁盘是有上限的,不能无限制下去。2.分布式存储方式纵向扩展有上限,自然想到横向扩展。所谓横向指的是采用多台机器存储,一台不够就多台一起存储,不够就加机器。理论上,可以横向无限制下去。因此海量数据如何存储的下的问题解决方式就是采用多台机器存储—即分布式存原创 2021-04-01 14:22:00 · 407 阅读 · 0 评论 -
HDFS入门和应用开发:从核心底层原理认识存储系统
企业存储系统随着这两年产业互联网的推动和发展,越来越多的企业开始进行数字化转型,将传统的业务流程进行数字化改造。在进行数字化的过程中,需要数据来支撑企业的业务流程重塑,并以客户、产品为核心,以数据来支撑精细化运营。而数据分散在不同的系统中,要更充分的利用数据,需要将企业的大量数据集中存储,并进行业务化处理。此时,我们要想办法来解决大规模数据存储的问题。不管是使用哪种存储技术,都需要有存储硬件的支持。一、硬盘硬盘是计算机的主要存储硬件,可以用来存储大量数据。目前(2020年..原创 2021-04-01 14:15:27 · 238 阅读 · 0 评论 -
大数据学习连载07篇:Hadoop环境搭建完成后的压力测试
实际生产环境当中,hadoop的环境搭建完成之后,第一件事情就是进行压力测试,测试Hadoop集群的读取和写入速度,测试网络带宽是否足够等一些基准测试。一、测试写入速度向HDFS文件系统中写入数据,10个文件,每个文件10MB,文件存放到/benchmarks/TestDFSIO中1.启动YARN集群 start-yarn.sh 2.启动写入基准测试 hadoop jar /export/server/hadoop-3.1.4/share/hadoop/ma.原创 2021-03-31 14:42:32 · 381 阅读 · 0 评论 -
大数据学习连载06篇:Hadoop初体验之Hadoop安装包目录结构
一、使用HDFS1.从Linux本地上传一个文本文件到hdfs的/目录下#在/export/data/目录中创建a.txt文件,并写入数据cd /export/data/touch a.txtecho "hello" > a.txt #将a.txt上传到HDFS的根目录hadoop fs -put a.txt /2.通过页面查看通过NameNode页面.进入HDFS:http://node1.itcast.cn:9870/查看文件是否创建成功二、运...原创 2021-03-31 14:38:59 · 464 阅读 · 0 评论 -
大数据学习连载05篇:Hadoop集群搭建,手把手带你安装配置以及访问
Hadoop集群搭建本文导读:2000+字数手把手带你学习集群部署方式以及环境搭建。从解压开始学习~刚入门Hadoop的小伙伴不要错过哦!一、集群简介HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。HDFS集群负责海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNodeYARN集群负责海量数据运算时的资源调度,集群中的角色主要有:ResourceManager、NodeMan原创 2021-03-30 15:20:05 · 321 阅读 · 0 评论 -
大数据学习连载04篇:Hadoop概述(发展史、国内外应用、版本、Hadoop 3.0新特性)
本篇文章过长,大概4000+字数,全文干货无废话。分别给大家介绍一下Hadoop生态圈,并且Hadoop在国内国外互联网公司的应用场景和负责业务。后面也会给大家介绍Hadoop的各个发行版本和介绍。以及3.0版本的新特性是什么。附目录,望收藏随时观看。一、Hadoop概述1.Hadoop介绍Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上说,Hadoop.原创 2021-03-30 14:27:07 · 2108 阅读 · 0 评论 -
大数据学习连载03篇:分布式技术(集群、负载、弹性、故障等知识点)
分布式技术一、为什么需要分布式(1)计算问题无论是我们在学校刚开始学编程,还是在刚参加工作开始处理实际问题,写出来的程序都是很简单的。因为面对的问题很简单。以处理数据为例,可能只是把一个几十K的文件解析下,然后生成一个词频分析的报告。很简单的程序,十几行甚至几行就搞定了。直到有一天,给你扔过来1000个文件,有些还特别大,好几百M了。你用之前的程序一跑,发现跑的时间有点长。于是想要去优化下。1000 个文件,互相还没业务联系,用多线程呀,一个线程处理一个文件,结果再汇总就搞定了。如果多线程效原创 2021-03-29 13:48:59 · 1011 阅读 · 0 评论 -
大数据学习连载02篇:业务分析步骤、数据的收集、整理、展现以及工作报告
大数据业务分析基本步骤典型的大数据分析包含以下几个步骤:(1)明确分析目的和思路明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据的收集、处理及分析提供清晰的指引方向。目的是整个分析流程的起点。目的不明确则会导致方向性的错误。即思考:为什么要开展数据分析,通过这次数据分析要解决什么问题?当明确目的后,就要校理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。只有明确了分原创 2021-03-29 13:40:38 · 1531 阅读 · 0 评论 -
大数据学习开篇:了解大数据导论、清楚大数据应用领域和前景
一、大数据导论1.大数据概念(1)大数据概念最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,大数据究竟是什么东西?有哪些相关技术?对普通人的生活会有怎样的影响?我们来一步步弄清这些问题。CCTV9-大数据时代中国首部大数据产业题材纪录片——《大数据时代》于7月1日20:04分在央视9套纪录频道首播,该片由中央广播电视总台与工业和信息化部联合出品、工业和信息化部信息化和软件服务业司指导、央视纪录频道和国家原创 2021-03-29 12:52:12 · 2432 阅读 · 0 评论