- 博客(5)
- 收藏
- 关注
原创 伪分布式搭建hadoop
一、安装JAVA环境1.下载JDK安装包安装包:jdk-8u152-linux-x64.tar.gz2.卸载自带OpenJDK卸载相关服务查看删除结果再次键入命令 java -version 出现以下结果表示删除成功bash: java: 未找到命令3.安装JDK4.
2024-04-29 16:07:12
667
3
原创 Hive组建安装配置
(1)将 MySQL 数据库驱动(/opt/software/mysql-connector-java-5.1.46.jar)拷贝到 Hive 安装目录的 lib 下;(4)MySQL 的 JDBC 驱动包/opt/software/mysql-connector-java-5.1.47.jar,(5)Hive 软件包/opt/software/apache-hive-2.0.0-bin.tar.gz。(2)本地安装 MySQL 数据库(账号 root,密码 Password123$),
2024-04-09 17:15:52
1011
原创 我与虚拟机之间的爱恨情仇
root@localhost yum.repos.d]# mkdir abc #在yun.repos.d创建一个空文件夹。[root@localhost ~]# cd /etc/yum.repos.d #进入yum.repos.d文件夹。[root@localhost yum.repos.d]# vi local.repo #编辑本地yum源文件。[root@localhost yum.repos.d]# yum repolist #检索yum仓。
2024-03-18 20:52:55
617
原创 重生之开启大数据之路
有一个误区,Spark是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。2.容易上手开发:Spark的基于RDD的计算模型,比Hadoop的基于Map-Reduce的计算模型要更加易于理解,更加易于上手开发,实现各种复杂功能,比如二次排序、topn等复杂操作时,更加便捷。冷备:冷备是在数据库停止运行时进行备份的方式。
2024-03-10 15:57:45
866
原创 大数据和Hadoop
这样是不可取的,因为NameNode的内存总是有限的,太多的小文件会徒增NameNode的负担,甚至会使其崩溃。2NN(secondary NameNode):并⾮NN的热备,当NN挂掉的时候,并不能马上替换NN并提供服务,2NN是辅助NN,分担其工作量,比如定期合并fsimage和edits,并推送给NN。DataNode:NN下达命令,DN(DataNode)执行实际的操作:DN存储实际的数据块(block),数据块副本默认为 3,数据块的⼤⼩默认为 128 M,执⾏数据块的读/写操作。
2024-03-06 21:08:06
910
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人