- 博客(6)
- 收藏
- 关注
原创 伪分布式数据库搭建(hadoop+spark+scala)
一,下载JDK安装包官网:https://www.oracle.com/java /technologies /javase-jdk8-downloads.html二,卸载openJDK三,安装JDK四,设置java环境变量命令:vi /etc/profile将master公钥进行公钥认证,实现本机免密登陆将/root/hadoop-2.7.1.tar.gz解压到/opt目录下,并将解压文件改名为hadoop。
2024-04-26 18:33:42
1911
4
原创 Hadoop平台安装及运行
步骤一:查看服务器的 IP 地址 查看服务器的 IP 地址步骤二:设置服务器的主机名称步骤三:绑定主机名与 IP 地址步骤四:查看 SSH 服务状态SSH 为 Secure Shell 的缩写,是专为远程登录会话和其他网络服务提供安全性 的协议。一般的用法是在本地计算机安装 SSH 客服端,在服务器端安装 SSH服 务,然后本地计算机利用 SSH 协议远程登录服务器,对服务器进行管理。这样可 以非常方便地对多台服务器进行管理。
2024-04-26 13:58:06
735
原创 Hive组件安装与配置
(1)当前环境中已安装 Hadoop 全分布系统。(2)本地安装 MySQL 数据库(账号 root,密码 Password123$), 软件包在/opt/software/mysql-5.7.18 路径下。(3)MySQL 端口号(3306)。(4)MySQL 的 JDBC 驱动包/opt/software/mysql-connector-java-5.1.47.jar, 在此基础上更新 Hive 元数据存储。
2024-04-09 18:22:52
1389
原创 Hadoop
有一个误区,Spark是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。这些数据具有明确定义的模式和结构,例如,数据库中的表格、电子表格中的数据或日志文件中的数据。MapReduce是细粒度申请资源,提交任务,task自己申请资源自己运行程序,自己释放资源,虽然资源能够充分利用,但是这样任务运行的很慢。
2024-03-13 19:01:44
1790
原创 Hadoop
HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。3非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。的系统,适合部署在廉价的机器上。
2024-03-07 13:04:48
560
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人