![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据学习笔记
文章平均质量分 72
夏木夕
这个作者很懒,什么都没留下…
展开
-
Redis 的安装与部署
上传 redis-3.2.8 源码到 /opt/software/ps: 是一个用于显示当前运行进程的命令。本文为Redis的Linux版单机部署。查找正在运行的与redis相关的进程。解压到 /opt/module/方式三:通过客户端命令进行关闭。Redis是C语言编写的。方式二:Linux命令行。原创 2024-06-22 10:38:52 · 383 阅读 · 0 评论 -
Hive on Spark 配置
Hive引擎包括:MR(默认)、tez、spark。Hive on Spark:Hive既作为存储元数据又负责 SQL 的解析优化,语法是 HQL 语法,执行引擎变成了 Spark,Spark 负责采用 RDD 执行。Spark on Hive:Hive 只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用 RDD 执行。原创 2024-03-30 10:50:40 · 1642 阅读 · 0 评论 -
Sqoop 的安装与配置
(1)上传安装包 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 到 hadoop101 的 /opt/software 路径中。(1)将 mysql-connector-java-5.1.48.jar 上传到 /opt/software 路径。(2)进入到/opt/software/路径,拷贝 jdbc 驱动到 sqoop 的 lib 目录下。进入到/opt/module/sqoop/conf目录,重命名配置文件。(2)解压sqoop安装包到指定目录,并对其重命名。原创 2024-03-28 21:08:48 · 762 阅读 · 0 评论 -
HBase 的安装与部署
在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。我们只需删除HBase中的SLF4J,使用Hadoop中的SLF4J即可。(集群中的机器都删)端口(hadoop3)则是客户端与NameNode进行通信交互的端口。(1)关闭 HBase 集群(如果没有开启则跳过此步)(7)HBase 服务的启动。(4)使环境变量生效。原创 2024-03-06 17:25:11 · 1298 阅读 · 0 评论 -
Scala 安装与部署
Windows环境安装。原创 2024-02-27 22:01:00 · 949 阅读 · 0 评论 -
Hive 安装与部署
hive的元数据是存在 MySql 里的,如果不使用元数据服务的话,hive直接会操作MySql里的元数据,使用元数据服务的话,hive会操作元数据服务,元数据服务再去操作 MySql 里的元数据。用于列出系统中已安装的所有软件包的名称,CentOS 6系统自带的数据库 MySql,CentOS 7系统自带的数据库是 mariadb(本质上就是 MySQL),根据自己的系统来确定。hive 工作时底层是基于 hadoop 的,hadoop 里也有日志的 jar 包,二者可能会有冲突,将 hive 中的。原创 2024-01-08 22:06:29 · 1248 阅读 · 0 评论 -
Kafka 安装与部署
依次在 hadoop101、hadoop102、hadoop103 节点上启动 kafka。kafka 本身的运行日志会存放在kafka目录下的 logs 文件夹下。注意,停止集群的时候,也要先停止kafka,再停止zookeeper。修改 kafka 数据的存放位置(默认存储7天)中编写的群起Zookeeper 集群的脚本。(7)修改其他机器中的 broker id。(6)向其他机器分发 kafka。(9)启动 Kafka 集群。中写过的集群分发脚本。(8)分发系统环境变量。(11)群起集群脚本。原创 2023-12-18 19:04:18 · 676 阅读 · 0 评论 -
Flume 安装与部署
但是这并不影响 Flume 的运行,因为系统会自动找到 Hadoop 中自带的兼容版本的。,我安装的 Hadoop 版本是 3.1.3 ,这与。删除以兼容Hadoop 3.1.3。版本不兼容,删除以避免后续报错。上传到 linux 的。(5)将lib文件夹下的。保存退出,使环境变量生效。原创 2023-12-17 12:03:26 · 865 阅读 · 0 评论 -
Zookeeper 安装与部署
Zookeeper 使用的基本时间,服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳,时间单位为毫秒。注意:如果不是第一次搭建集群,那么就把 Zookeeper 安装目录下的 zkData目录删除,并且把 logs 目录也删除。时能容忍的最多心跳数(tickTime的数量),用它来限定集群中的Zookeeper服务器连接到Leader的时限。在 Zookeeper 的安装目录的 zkData 目录下创建一个 myid 的文件,的绝对路径粘贴在下方位置处。原创 2023-12-03 15:11:24 · 2290 阅读 · 0 评论 -
大数据技术学习笔记(一)—— 大数据概论
1 大数据的概念大数据:指无法在一定的时间范围内用常规的软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决海量数据的存储和海量数据的分析计算问题。2 大数据的特点大数据的特点简称 4V 特征:Volume(数据量大)Velocity(速度快)Variety(种类繁多)Value(价值密度低)3 大数据生态圈3.1 Hadoop 是什么Hadoop是一个由Apache基金会所开发的分布式系原创 2022-05-21 23:56:56 · 3243 阅读 · 0 评论 -
大数据技术学习笔记(二)—— Hadoop 运行环境的搭建
NameNode和ResourceManger如果不是同一台机器,不能在NameNode上启动 YARN,应该在ResouceManager所在的机器上启动YARN。利用模板机 hadoop100,克隆三台虚拟机:hadoop101 、hadoop102、hadoop103。修改 module、software 文件夹的所有者和所属组均为 huwei 用户。在hadoop101上启动NameNode、DataNode。如果能看到以上结果,则代表 Hadoop 安装成功!在hadoop101上启动集群。原创 2023-10-21 20:57:52 · 840 阅读 · 0 评论 -
大数据技术学习笔记(三)—— Hadoop 的运行模式
Hadoop运行模式包括:本地模式 :hadoop默认安装后启动就是模式,就是将来的数据存在Linux本地,并且运行MR程序的时候也是在本地机器上运行;伪分布式模式:其实就只在上启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上,以及运行MR程序也是在YARN上运行,计算后的结果也是输出到HDFS上。本质上就是利用一台服务器中多个java进程去模拟多个服务;完全分布式模式:完全分布式其实就是。原创 2023-10-22 17:12:17 · 760 阅读 · 0 评论 -
大数据技术学习笔记(四)—— HDFS
随着数据量越来越大,在一个操作系统中存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是这样不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式管理系统中的一种。HDFS(Hadoop Distributed File System),是一个文件系统,用于存储文件,通过目录树来定位文件;其次,其是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。原创 2023-12-04 22:47:07 · 1187 阅读 · 0 评论 -
大数据技术学习笔记(五)—— MapReduce(1)
MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并行运行在一个Hadoop集群上。序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化呢?原创 2024-03-04 17:04:35 · 990 阅读 · 0 评论 -
大数据技术学习笔记(五)—— MapReduce(2)
目录1 MapReduce 的数据流1.1 数据流走向1.2 InputFormat 数据输入1.2.1 FileInputFormat 切片源码、机制1.2.2 TextInputFormat 读数据源码、机制1.2.3 CombineTextInputFormat 切片机制1.3 OutputFormat 数据输出1.3.1 OutputFormat 实现类1.3.2 自定义 OutputFormat2 MapReduce 框架原理2.1 MapTask 工作机制2.2 ReduceTask 工作原创 2024-03-05 17:00:21 · 1251 阅读 · 0 评论 -
大数据技术学习笔记(九)—— Zookeeper
Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。Zookeeper 从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper 就负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应。原创 2023-12-03 20:11:46 · 1160 阅读 · 0 评论 -
大数据技术学习笔记(十一)—— Flume
Flume 是 Cloudera 公司提供的一个高可用的,高可靠的,分布式的海量日志采集聚合和传输的系统。Flume 基于流式架构,灵活简单。这里的日志不是指框架工作运行的日志,而是跟业务相关的日志数据,如用户行为数据等Flume 最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到 HDFS。案例需求。原创 2023-12-24 09:29:38 · 1226 阅读 · 0 评论 -
大数据技术学习笔记(十三)—— HBase
HBase 是一种分布式可扩展支持海量数据存储的NoSQL数据库,支持对大数据进行随机、实时的读/写访问。NoSQL数据库(非关系型数据库)是一种不同于传统关系型数据库的数据库管理系统。它们使用灵活的数据模型,不遵循传统的表格关系模式,而是采用键值对(如Redis)、文档型(如MongoDB)、列族存储(如HBase)、图形数据库(如Neo4j)等各种数据模型。非关系型数据库主要用于存储和处理大量分散的数据,具有高性能、高可扩展性和高可用性的特点。原创 2024-03-19 11:56:58 · 1575 阅读 · 1 评论 -
Centos7上配置python环境
5. 进入解压后的文件夹 pycharm-2023.1中的 bin 目录,发现有一个pycharm.sh 文件,执行。2. 在 opt 文件夹下新建 softwares 文件夹,用于存放下载的软件。注意:使用pycharm过程中不能关闭命令终端,否则pycharm也会随之关闭。把下边的复制进去(我用的清华的源,如果想配置其他源只需要改下边的内容即可)输入python3,未成功,需要配置环境变量。直到“是否接收许可条款”,输入“yes”同理,在windows系统下。安装完成,默认安装在。原创 2023-04-16 19:06:24 · 2375 阅读 · 0 评论 -
centos7安装 fasttext
需要安装gcc、g++查看是否安装成功。原创 2023-04-18 19:13:12 · 316 阅读 · 0 评论 -
Ubuntu18.04 设置 root 用户登录
Ubuntu 安装后,root 用户默认是被锁定的,无法登录。Ubuntu 默认的 root 密码是动态随机的,我们的系统每次启动后都是不一样的,那么要使用 root 权限登录,首先要设置一个固定的密码。这样,我们就设置了root用户的密码,我们可以随时切换 root 用户。但是当我们直接使用 root 用户登录时,会发现。登录进去就是 root 用户了。此时需要我们进一步设置。原创 2023-05-05 20:50:15 · 1496 阅读 · 1 评论 -
Ubuntu18.04实现与Windows之间的复制粘贴、文件拖拽
一般来说,通过安装VMware Tools便可以实现与Windows之间的复制粘贴、文件拖拽功能,但是在Ubuntu18.04中,我尝试了很多遍也没有成功,最终通过以下方法得以解决。原创 2023-05-05 20:13:37 · 2649 阅读 · 5 评论 -
CentOS 6下安装配置mysql和hive
安装环境:Centos 6Hive版本:2.3.7用户名:huwei第一部分 安装mysql1. 查看CentOS自带mysql是否已安装yum list installed | grep mysql可知有自带安装的mysql2. 卸载自带安装的mysqlyum -y remove mysql-libs.x86_64卸载完成!3. 查看yum库上的mysql版本信息(CentOS系统需要正常连接网络)yum list | grep mysql 或 yum -y list m原创 2020-11-23 23:24:33 · 660 阅读 · 0 评论 -
Centos 8下安装jdk1.8
安装环境:Centos 8JDK版本:1.8用户名:huweiJDK1.8压缩包链接:https://pan.baidu.com/s/15DfvlIKRl1G4fk5rFNigQg提取码:muap下载好的JDK压缩包如下图所示为JDK创建安装的文件夹cd命令进入/usr/local 目录下,由于进入系统目录操作需要管理员权限,故使用sudo su 由普通用户转为root用户,mkdir Java创建Java文件夹(touch是创建文件)cd /usr/localsudo sum原创 2020-11-18 21:31:47 · 1990 阅读 · 7 评论 -
Centos6下安装伪分布式hadoop
安装环境:Centos 6Hadoop版本:2.7.2用户名:huweiHadoop2.7.2下载链接:https://pan.baidu.com/s/1AK4CXh2jBKOSa-bN4NA8nQ 提取码:bemy下载好的hadoop压缩包如下图所示:提示:全文中所有cd命令,均可在图形化界面点击进入指定文件夹后,右击打开终端而省略。1. 为Hadoop创建安装的文件夹cd命令进入/usr/local 目录下,由于进入系统目录操作需要管理员权限,故使用su命令由普通用户转为roo原创 2020-11-20 20:28:44 · 1721 阅读 · 6 评论 -
ERROR! MySQL is not running, but PID file exists
原因:此时用户的权限不是管理员权限或者root用户的权限解决办法:切换root用户或者在命令前加上原创 2022-06-05 22:04:53 · 2543 阅读 · 0 评论 -
hive初始化报错
原因:创建的hive-site.xml文件内容出错解决办法:再次初始化,成功!原创 2022-06-05 21:56:15 · 186 阅读 · 0 评论 -
vm虚拟机centos6 弹出界面 eth0: 设备 eth0 似乎不存在, 初始化操作将被延迟
参考:https://www.612459.com/news/?2533.html原创 2022-03-14 12:47:17 · 1075 阅读 · 0 评论 -
linux系统中centos6配置静态IP重启网络错误问题解决
问题一:问题二:修改IP地址vim /etc/sysconfig/network-scripts/ifcfg-eth0ifconfig展示的IP地址与设置的IP地址不一致!==============================================================原因是启动网络的两个服务有冲突:/etc/init.d/network 和 /etc/init.d/NetworkManager这两个服务只需关闭NetworkManager服务即可。关掉原创 2022-03-11 21:27:07 · 631 阅读 · 0 评论