- 博客(5)
- 收藏
- 关注
原创 Hadoop平台搭建运行
rw-------. 1 hadoop hadoop 395 11月 14 16:18 authorized_keys。-rw-------. 1 hadoop hadoop 395 11月 14 16:18 authorized_keys。-rw-------. 1 hadoop hadoop 395 11月 14 16:19 authorized_keys。-rw-r--r--. 1 hadoop hadoop 33 11月 10 23:50 part-r-00000。
2024-04-23 20:24:47 1309
原创 Hive组建安装配置
(4)MySQL 的 JDBC 驱动包/opt/software/mysql-connector-java-5.1.47.jar, 在此基础上更新 Hive 元数据存储。(2)本地安装 MySQL 数据库(账号 root,密码 Password123$), 软件包在/opt/software/mysql-5.7.18 路径下。将/usr/local/src/hive/conf 文件夹下 hive-default.xml.template 文件,更名为 hive-site.xml。
2024-04-11 19:52:57 1110
原创 Linux配置临时ip,永久ip以及yum仓库
IPADDR=192.168.10.10(等号后面自己设置ip地址)ifconfig [网卡名称] [ip地址] [子网掩码]命令:mount /dev/cdrom /media/命令:cd /etc/yum.repos.d/命令:yum clean all。添加完毕之后按ESC保存退出。
2024-03-20 16:49:20 352
原创 spark大数据技术与应用
但是,如果计算过程中涉及数据交换,Spark 也是会把 shuffle 的数据写磁盘的!有一个误区,Spark 是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop 也是如此,只不过 Spark 支持将需要反复用到的数据给 Cache 到内存中,减少数据加载耗时,所以 Spark 跑机器学习算法比较在行(需要对数据进行反复迭代)用 3 个数字表示文件或目录的权限,第 1 个数字表示所有者的权限,第 2个 数字表示与所有者同组用户的权限,第 3 个数字表示其他用户的权限。
2024-03-11 21:19:01 904 1
原创 大数据技术与应用
一个用于分布式大数据处理的开源框架,由Apache基金会所开发的分布式系统基础框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。同常是指一个更广泛的概念-Hadoop生态圈。
2024-03-07 12:57:28 1026 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人