大数据
文章平均质量分 80
大数据相关技术栈
孟诸
coding
展开
-
hadoop学习五-MapReduce
1 概述1.1 定义Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架。Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 hadoop 集群上。1.2 优缺点1.2.1 优点MapReduce 易于编程。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。原创 2022-04-23 14:46:11 · 2171 阅读 · 0 评论 -
hadoop学习四-HDFS概述
1 概述1.1 产生背景和定义随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应原创 2022-04-23 09:39:48 · 215 阅读 · 0 评论 -
hadoop学习三-安装启动
下载hadoop解压1 本地启动运行官方案例,统计单词出现次数。输入路径:LICENSE.txt,输出路径:output/wordcounthadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount LICENSE.txt output/wordcount然后再输出目录查看结果2 伪分布式启动2.1 修改配置文件(1)core-site.xml:<property><原创 2022-04-23 09:39:26 · 502 阅读 · 0 评论 -
hadoop学习二-相关概念
1 HDFS概述NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限)以及每个文件的块列表和块所在的DataNode等DataNode:在本地文件系统存储文件数据块以及块数据的校验和Secondary NameNode:每隔一段时间对NameNode元数据进行备份2 MapReduce概述MapReduce将计算过程分为两个阶段:Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总3 YARN架构概述Ye原创 2022-04-23 09:39:01 · 1559 阅读 · 0 评论 -
hadoop学习一-hadoop简介
1 hadoop简介1.1 hadoop是什么hadoop是一个由apache基金会开发的分布式系统基础架构,主要解决海量数据存储和分析计算。广义地说hadoop通常代表hadoop生态圈。1.2 hadoop发展历程Lucene–DougCutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎2001年年底成为apache基金会的一个子项目对于大数量的场景,Lucene面对与Google同样的困难学习原创 2022-04-05 17:55:15 · 4578 阅读 · 0 评论 -
大数据学习一-shell解释器
1 概述shell是一个命令行解释器,它接收应用程序/用户命令,然后调用操作系统内核shell还是一个功能强大的编程语言,易编写,易调试,灵活性强linux提供的shell解释器有[root@server ~]$ cat /etc/shells/bin/sh/bin/bash/sbin/nologin/bin/dash/bin/tcsh/bin/csh在我们的linux系统中,sh是bash的一个软链接[root@server bin]$ ll | grep bash-rw原创 2022-04-03 12:20:57 · 1289 阅读 · 1 评论