LvCyqj-CSDN博客

（1）当前环境中已安装 Hadoop 全分布系统。（2）本地安装 MySQL 数据库（账号 root，密码 Password123$），软件包在/opt/software/mysql-5.7.18 路径下。（3）MySQL 端口号（3306）。（4）MySQL 的 JDBC 驱动包/opt/software/mysql-connector-java-5.1.47.jar，在此基础上更新 Hive 元数据存储。

2024-04-09 18:59:35 1766

原创 Liunx你都懂的那些事

yum仓库就是使用yum命令下载软件的镜像地址.我们通常使用 yum install 命令来在线安装 linux系统的软件, 这种方式可以自动处理依赖性关系,并且一次安装所有依赖的软件包.众所周知,从国外下载软件速度非常慢,很多情况下都无法下载.国内一些大公司做镜像同步国外的软件, 那么我们可能使用国内的下载地址,就能下载我们需要的软件.

2024-03-20 21:11:32 295

原创 Hadoop

Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘IO的操作。有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop也是如此，只不过Spark支持将需要反复用到的数据Cache到内存中，减少数据加载耗时，所以Spark跑机器学习算法比较在行（需要对数据进行反复迭代）。2. 良好的扩展性。

2024-03-13 18:12:41 1732

原创 Hadoop

2024-03-08 17:01:31 372

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

2401_83298399的博客

原创搭建单机版伪分布式Hadoop+Scala+spark

原创 Hive组件安装与配置

原创 Liunx你都懂的那些事

原创 Hadoop

原创 Hadoop

空空如也

空空如也

原创 搭建单机版伪分布式Hadoop+Scala+spark

原创 Hive组件安装与配置

原创 Liunx你都懂的那些事

原创 Hadoop

原创 Hadoop

空空如也

空空如也

原创搭建单机版伪分布式Hadoop+Scala+spark