- 博客(3)
- 收藏
- 关注
原创 伪分布式hadoop,scala,spark
rw-r--r--. 1 root root 1004838 4月 18 16:46 mysql-connector-java-5.1.46.jar。-rw-r--r--. 1 root root 1004838 4月 18 16:46 mysql-connector-java-5.1.46.jar。上述目录中/input 目录是输入数据存放的目录,/output 目录是输出数据存放的目录。查看返回值中有没有master,slave1,slave2。
2024-04-25 16:55:52 1668
原创 HADOOP安装详细步骤
上述目录中/input 目录是输入数据存放的目录,/output 目录是输出数据存放的目录。重启 SSH 服务,并切换到hadoop用户下验证能否嵌套登录本机,若可以不输入密码登录,则本机通过密钥登录认证成功。在master,slave1,slave2上将 id_rsa.pub 追加到授权 key 文件中。将master,slave1,slave2都转到用户hadoop下。配置 slaves 文件,添加slave1,slave2的ip地址。查看返回值中有没有master,slave1,slave2。
2024-04-25 13:57:42 2143 6
原创 Hadoop生态圈和spark技术特点
MapReduce 是一种编程模型,用于处理大规模数据集。它将任务分为两个阶段:Map 阶段和 Reduce 阶段。Map 阶段将输入数据拆分成键值对,然后应用用户定义的函数进行处理。Reduce 阶段将 Map 阶段的输出进行合并和汇总。MapReduce 适用于离线数据处理,但不适合实时数据处理。Spark 是一个通用的大数据处理框架,具有以下特点:快速:spark的运行速度比较快易用:spark支持使用scala、python、java、R等语言快速编写应用。
2024-03-07 17:44:44 1527 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人