Watopos-CSDN博客

原创伪分布式搭建hadoop

一、安装JAVA环境1.下载JDK安装包安装包：jdk-8u152-linux-x64.tar.gz2.卸载自带OpenJDK卸载相关服务查看删除结果再次键入命令 java -version 出现以下结果表示删除成功bash: java: 未找到命令3.安装JDK4.

2024-04-29 16:07:12 667 3

（1）将 MySQL 数据库驱动（/opt/software/mysql-connector-java-5.1.46.jar）拷贝到 Hive 安装目录的 lib 下；（4）MySQL 的 JDBC 驱动包/opt/software/mysql-connector-java-5.1.47.jar，（5）Hive 软件包/opt/software/apache-hive-2.0.0-bin.tar.gz。（2）本地安装 MySQL 数据库（账号 root，密码 Password123$），

2024-04-09 17:15:52 1011

原创我与虚拟机之间的爱恨情仇

root@localhost yum.repos.d]# mkdir abc #在yun.repos.d创建一个空文件夹。[root@localhost ~]# cd /etc/yum.repos.d #进入yum.repos.d文件夹。[root@localhost yum.repos.d]# vi local.repo #编辑本地yum源文件。[root@localhost yum.repos.d]# yum repolist #检索yum仓。

2024-03-18 20:52:55 617

原创重生之开启大数据之路

有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop也是如此，只不过Spark支持将需要反复用到的数据Cache到内存中，减少数据加载耗时，所以Spark跑机器学习算法比较在行（需要对数据进行反复迭代）。2.容易上手开发：Spark的基于RDD的计算模型，比Hadoop的基于Map-Reduce的计算模型要更加易于理解，更加易于上手开发，实现各种复杂功能，比如二次排序、topn等复杂操作时，更加便捷。冷备：冷备是在数据库停止运行时进行备份的方式。

2024-03-10 15:57:45 866

原创大数据和Hadoop

这样是不可取的，因为NameNode的内存总是有限的，太多的小文件会徒增NameNode的负担，甚至会使其崩溃。2NN（secondary NameNode）：并⾮NN的热备，当NN挂掉的时候，并不能马上替换NN并提供服务，2NN是辅助NN，分担其工作量，比如定期合并fsimage和edits，并推送给NN。DataNode：NN下达命令，DN（DataNode）执行实际的操作：DN存储实际的数据块（block），数据块副本默认为 3，数据块的⼤⼩默认为 128 M，执⾏数据块的读/写操作。

2024-03-06 21:08:06 910

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Watopos的博客

原创伪分布式搭建hadoop

原创 Hive组建安装配置

原创我与虚拟机之间的爱恨情仇

原创重生之开启大数据之路

原创大数据和Hadoop

空空如也

空空如也

原创 伪分布式搭建hadoop

原创 Hive组建安装配置

原创 我与虚拟机之间的爱恨情仇

原创 重生之开启大数据之路

原创 大数据和Hadoop

空空如也

空空如也

原创伪分布式搭建hadoop

原创我与虚拟机之间的爱恨情仇

原创重生之开启大数据之路

原创大数据和Hadoop