![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 81
code1997
这个作者很懒,什么都没留下…
展开
-
12.hadoop序列化
hadoop序列化 1 序列化概述 1.1 什么是序列化? 序列化就是将内存中的对象,转换成字节序列(或其他数据传输协议)用于存储到磁盘(持久化和网络传输)。 反序列化将收到的字节序列(或其他数据传输协议)或者磁盘中的数据,转换成内存中的对象。 1.2 为什么要序列化? 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。 1.3 为什么不用java的原创 2021-01-03 13:34:37 · 51 阅读 · 0 评论 -
11.MapReduce概述
MapReduce概述 1MapReduce的定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 2 MapReduce的优缺点 2.1 优点 1)MapReduce 易于编程 它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写一原创 2021-01-03 13:33:59 · 146 阅读 · 0 评论 -
10.HDFS的IO流操作
HDFS的IO流操作 1 HDFS文件上传 @Test public void putFileToHDFS() throws URISyntaxException, IOException, InterruptedException { //1.获取对象 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(new URI("hdfs://hadoop02:9000"), conf, "cod原创 2021-01-03 13:33:10 · 402 阅读 · 0 评论 -
9.HDFS的API使用
HDFS 客户端 1 环境准备 前三项可选,我这里连接的还是之前的虚拟机上的hadoop。 1)根据自己的操作系统,选择对应的编译后的hadoop jar包到非中文路径。 2)配置HADOOP_HOME环境变量 3)配置Path环境变量 4)创建maven工程,这里使用idea工具 5)导入pom依赖 <dependencies> <dependency> <groupId>junit</groupId> <原创 2020-12-30 23:25:22 · 107 阅读 · 0 评论 -
7.hdfs概述
HDFS概述 1 HDFS产生的背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切的需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统的一种。 2 HDFS的定义 HDFS,是一个文件系统,用于存储文件,通过目录树来定位文件,其次,他是分布式的,由很多服务器联合起来实现其功能,集群中的服务有各自的角色。 使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合做数据分析,并原创 2020-12-30 23:24:33 · 74 阅读 · 0 评论 -
5.hadoop之完全分布式运行模式
完全分布式模式 1 需求分析 1)准备3台客户机(关闭防火墙,静态ip,主机名称)–参照之前的文章 此后hadoop01为备机,hadoo02,03,04为集群 2)安装JDK 3)配置环境变量 4)安装Hadoop 5)配置环境变量 6)配置集群 7)单点启动 8)配置ssh 9)群起并测试集群 2 搭建集群 2.1 虚拟机准备 参照之前的博客进行搭建 2.2 编写集群分发脚本 2.2.1 scp:安全拷贝 1)scp定义: scp可以实现服务器与服务器之间的数据拷贝。 2)基本语法 scp -r原创 2020-12-30 23:23:37 · 193 阅读 · 0 评论 -
4.hadoop之伪分布式模式
伪分布式模式 1 伪分布式配置 1.1 配置集群 配置文件均在hadoop的安装目录的etc/hadoop下 1)配置:hadoop-env.sh 修改JAVA_HOME的路径 export JAVA_HOME=/opt/module/jdk1.8 2)修改配置:etc/hadoop/core-site.xml vim etc/hadoop/core-site.xml 添加如下信息: <configuration> <property> <na原创 2020-12-29 22:53:49 · 286 阅读 · 0 评论 -
3.hadoop之本地模式
1 官方GREP案例 By default, Hadoop is configured to run in a non-distributed mode, as a single Java process. This is useful for debugging. The following example copies the unpacked conf directory to use as input and then finds and displays every match of th原创 2020-12-29 22:52:46 · 126 阅读 · 1 评论 -
2.hadoop运行环境搭建
Hadoop搭建 虚拟机的创建和配置,jdk的配置已经完成。 1 Hadoop安装 1)Hadoop下载 2)上传到我们的虚拟机:rz 3)解压 tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/ 4)添加Hadoop到环境变量 sudo vim /etc/profile #添加的内容 ##HADOOP_HOME export HADOOP_HOME=/opt/module/hadoop-2.7.2 export PATH=$PATH:$HADOOP_HOME原创 2020-12-29 22:51:28 · 64 阅读 · 0 评论 -
1.hadoop入门概述
Hadoop–入门 第1章 大数据概论 1.1 大数据概念 1.2 大数据特点(4V) 1 Volume:大量 2 Velocity-高速 3 Variety-多样 4 Value-低价值密度 1.3 大数据应用场景 1大数据应用场景之物流仓储 2大数据应用场景之零售 3大数据应用场景之旅游 4大数据应用场景之商品广告推荐 5大数据应用场景之保险、金融及房产 6大数据应用场景人工智能 1.4 大数据部门业务流程分析 1.5 大数据部门组织结构(重点) 第2章 从Hadoop框架讨论原创 2020-12-29 22:50:16 · 93 阅读 · 0 评论