大数据学习
文章平均质量分 83
学习笔记,留作自用,仅限参考
shi_zi_183
这个作者很懒,什么都没留下…
展开
-
Yarn与ZooKeeper
Yarn与ZooKeeperYarn是MapReduce引入的资源管理器,它的出现为集群在资源利用率、资源统一管理和数据共享等方面带来了巨大好处。ZooKeeper是一个分布式的、开源的协调服务框架,ZooKeeper出现就是为例减轻分布式应用实现协调服务的负担。Yarn资源管理与调度Yarn产生背景在早期的Hadoop中,MRv1采用Master/Slave(M/S)框架,主要包括Client、JobTracker、TaskTracker和Task几个部分。其中JobTarcker负责整个系统的作原创 2021-10-19 22:47:37 · 1771 阅读 · 0 评论 -
Maven开发Spark程序
Maven开发Spark程序新建Maven项目将src/main/java改名为src/main/scala修改pom.xmlpom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schem原创 2021-10-19 20:02:13 · 550 阅读 · 0 评论 -
HBase开发
HBase开发Java API简介HBase的Java API包含很多内容,已经比较完善。1、HBaseConfiguration类HBaseConfiguration类属于org.apache.hadoop.hbase包,功能是通过添加HBase相关文件对HBase进行配置文件对HBase进行配置。常用的方法1)static org.apache.hadoop.conf.Configuration create()通过读取默认位置(classpath)下的hbase-site.xml文件,原创 2021-10-19 09:29:09 · 1499 阅读 · 0 评论 -
分布式数据库HBase
分布式数据库HBaseHBase是在Hadoop平台上高性能、高可靠、面向列、可伸缩的分布式数据库。HBase不同于一般的关系数据库HBase概述数据量的激增和数据形式的改变给传统的关系型数据库带来了巨大压力,常常出现共享中心数据库的CPU和I/O负载大大增加,SQL语句执行速度变慢,数据库的性能直线下降等问题。为了解决这些问题,NoSQL(not only SQL)数据库应运而生,HBase是目前应用广泛的NoSQL数据库之一。HBase特征1)线性可拓展,用户可以通过增加系统规模线性的提高HB原创 2021-10-16 22:07:58 · 626 阅读 · 0 评论 -
HBase安装配置
HBase安装配置获取安装包首先需要去hbase官网查看一下hbase版本和hadoop版本要匹配,否则很多业务受影响。综上选择使用hbase2.3.6https://dlcdn.apache.org/hbase/2.3.6/hbase-2.3.6-bin.tar.gz安装过程解压tar -zxvf hbase-2.3.6-bin.tar.gz 移动mv hbase-2.3.6 /usr/local/hbase修改权限chown -R hadoop:hadoop /usr原创 2021-10-16 18:52:43 · 255 阅读 · 0 评论 -
Spark安装
Spark安装安装前环境三台虚拟机master、slave1、slave2组成集群,配置好了hadoop。hadoop相关软件全部交由hadoop用户启动。scala安装安装包获取scala-2.11.8解压并移植安装目录tar -zxvf scala-2.11.8.tgzmv scala-2.11.8 /usr/local/scala更改目录权限chown -R hadoop:hadoop /usr/local/scala/配置hadoop用户环境变量vi /home/had原创 2021-09-22 09:27:39 · 699 阅读 · 0 评论 -
并行编程框架MapRduce(下)
MapReduce解析I/O序列化**序列化(serialization)**就是将结构化的对象转为字节流的过程,以便在网络上传输或者写入磁盘进行永久存储。**反序列化(deserialization)**是序列化的逆过程,将字节流转换回结构化对象。序列化和反序列化的主要应用是进程间的通信和持久化存储。在Hadoop集群中,多节点之间的通信时通过远程过程调用RPC协议完成的。RPC协议将消息序列化成二进制RPC对序列化有如下要求:1)紧凑:紧凑格式能充分利用网络带宽2)快速:进程间通信形成了分原创 2021-09-18 13:01:41 · 315 阅读 · 0 评论 -
并行编程框架MapRduce(上)
MapReduce概述MapReduce是一种分布式并行计算框架MapReduce和传统的并行编程模型框架的区别传统并行计算框架MapReduce集群架构/容错性共享式(共享内存/共享存储),容错性差,拓展性较差硬件/价格/扩展性刀片服务器、高速网、存储区域网络SAN,价格贵,扩展性差编程/学习难度what-how,难,编程原理和多线程的编程逻辑比较类似,需要借助很多互斥量信息锁等机制,要实现不同任务之间的同步适用场景实时、细粒度计算、计算密集型M原创 2021-09-09 11:51:59 · 584 阅读 · 0 评论 -
Hive安装与配置
Hive安装与配置安装前准备三台虚拟机master、slave1、slave2配置hadoop用户,之间免密登录,时钟同步,hadoop健康可用Hadoop与Hive的整合因为Hive需要把数据存储在HDFS上,并且通过MapReduce作为引擎处理数据;因此需要在Hadoop中添加相关配置属性,以满足Hive在Hadoop上允许。修改Hadoop中core-site.xml,并且Hadoop集群同步配置文件,重启生效。 <property> &l原创 2021-08-28 00:25:05 · 470 阅读 · 0 评论 -
hadoop框架搭建总结
文章目录一、机器准备二、安装JDK一、机器准备准备三台虚拟机master、slave1、slave2,内存4G,磁盘空间40G。关闭防火墙,配置固定ip,使其相互ping通。配置关闭防火墙systemctl stop firewalldsystemctl disable firewalld配置ipip分配master:192.168.188.200slave1:192.168.188.201slave2:192.168.188.202二、安装JDK检查JAVA是否安装j原创 2021-08-18 12:16:14 · 944 阅读 · 0 评论 -
实验二:熟悉常用的HDFS操作
实验目的1、理解HDFS在Hadoop体系结构中的角色2、熟悉使用HDFS操作常用的Shell命令3、熟悉HDFS操作常用的Java API实验平台1、操作系统:Windows2、Hadoop版本:3.1.33、JDK版本:1.84、Java IDE:Eclipse实验步骤1、编程实现以下功能,并利用Hadoop提供的Shell命令完成相同任务1)向 HDFS 中上传任意文本文件,如果指定的文件在 HDFS 中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件;Shell原创 2021-05-25 23:57:07 · 33866 阅读 · 10 评论 -
实验一:熟悉常用的Hadoop操作
实验目的Hadoop 运行在 Linux 系统上,因此,需要学习实践一些常用的 Linux 命令。本实验旨在熟悉常用的 Linux 操作和 Hadoop 操作,为顺利开展后续其他实验奠定基础。实验平台1、操作系统:win102、Hadoop版本:3.1.3win10与hadoop集群位于同一局域网中。实验步骤1、熟悉常用的Hadoop操作1)使用hadoop用户登录Linux系统,启动Hadoop(hadoop的安装目录为/usr/local/hadoop),为Hadoop用户在HDFS中创原创 2021-05-25 21:37:34 · 8722 阅读 · 1 评论 -
大数据基本操作课程笔记(5)
课程目标原创 2021-05-24 21:24:10 · 2286 阅读 · 20 评论 -
大数据基本操作课程笔记(4)
课程目标1、安装hadoop2、尝试单机模式,伪分布模式,分布模式课前环境master、slave1、slave2三台虚拟机,可以相互ping通,可以免密登录,安装了jdk1.8.0,zookeeper,同步时钟。安装hadoop这里使用的hadoop-3.3.0.tar.gz是二进制包,不需要编译,解压即可。解压hadooptar -zxvf hadoop-3.3.0.tar.gz -C /usr/local重命名hadoop根目录mv /usr/local/hadoop-3.原创 2021-05-10 16:36:19 · 551 阅读 · 1 评论 -
大数据基本操作课程笔记(3)
课程目标1、同步所有节点的时钟2、完善zookeeper配置课前环境三台虚拟机master、slave1、slave2。处于同一网络,相互ping通,ssh免密。zookeeper安装完成,处于离线模式。同步节点时钟查看是否安装了chronyrpm -qa|grep chrony查看chronyd服务的状态systemctl status chronyd修改主节点chrony配置文件我们目标是使得主节点时间与NTP服务器同步,子节点时间与主节点同步,以确保离线状态节点之间时间原创 2021-04-27 17:18:17 · 333 阅读 · 0 评论 -
大数据基本操作课程笔记(2)
课程目标1、镜像master并配置slave1、slave22、安装并配置hadoop预处理1、解决桥接模式更换网络无法连接问题桥接模式就是将主机网卡与虚拟机的网卡利用虚拟网桥进行通信。在桥接的作用下,类似于把物理主机虚拟为一个交换机,所有桥接设置的虚拟机连接到这个交换机的一个接口上,物理主机也同样插在这个交换机当中,所以所有桥接下的网卡与网卡都是交换模式的,相互可以访问而不干扰。在桥接模式下,虚拟机ip地址需要与主机在同一个网段,如果需要联网,则网关与DNS需要与主机网卡一致。桥接模式的好处原创 2021-04-12 17:46:18 · 627 阅读 · 0 评论 -
大数据基本操作课程笔记(1)
课程目标1、安装SSH服务2、安装JDK,设置环境变量3、安装zookeeper,设置开机自启动预处理1、修改hosts2、创建普通用户hadoop,并赋予root权限安装SSH查看是否已经安装了SSHrpm -qa |grep sshssh已经安装编辑SSH配置文件vim /etc/ssh/sshd_configEsc键进入底行命令模式,输入 :set nu 显示行号检查AuthorizedKeysFile(保存密钥的文件夹)PasswordAuthent原创 2021-03-29 14:53:23 · 440 阅读 · 1 评论