- 博客(5)
- 收藏
- 关注
原创 Hive组件安装与配置
(1)当前环境中已安装 Hadoop 全分布系统。(2)本地安装 MySQL 数据库(账号 root,密码 Password123$), 软件包在/opt/software/mysql-5.7.18 路径下。(3)MySQL 端口号(3306)。(4)MySQL 的 JDBC 驱动包/opt/software/mysql-connector-java-5.1.47.jar, 在此基础上更新 Hive 元数据存储。
2024-04-09 18:59:35
1766
原创 Liunx你都懂的那些事
yum仓库就是使用yum命令下载软件的镜像地址.我们通常使用 yum install 命令来在线安装 linux系统的软件, 这种方式可以自动处理依赖性关系,并且一次安装所有依赖的软件包.众所周知,从国外下载软件速度非常慢,很多情况下都无法下载.国内一些大公司做镜像同步国外的软件, 那么我们可能使用国内的下载地址,就能下载我们需要的软件.
2024-03-20 21:11:32
295
原创 Hadoop
Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。有一个误区,Spark是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。2. 良好的扩展性。
2024-03-13 18:12:41
1732
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人