![](https://img-blog.csdnimg.cn/07448a676459482f987ddd226c2f8c02.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 96
大数据学习
每天都要加油呀!
这些博客是笔者在学习过程中的笔记和心得,如有谬误,望君斧正
展开
-
基于docker搭建Hadoop CDH高可用集群
基于单节点docker搭建Hadoop CDH高可用集群原创 2022-07-11 20:48:44 · 1143 阅读 · 6 评论 -
Hadoop完全分布式安装(HA、Yarn、ZKFC、flumeGanglia、sqoop一步到位)
Hadoop完全分布式安装,一步到位原创 2022-07-08 09:38:53 · 2021 阅读 · 0 评论 -
基于Hadoop搭建HA集群网盘系统
基于Hadoop搭建HA集群网盘系统原创 2022-07-07 22:56:23 · 1954 阅读 · 1 评论 -
MapReduce原理剖析(深入源码)
MapReduce源码学习原创 2022-06-26 12:19:13 · 1840 阅读 · 1 评论 -
MapReduce实战小案例(自定义排序、二次排序、分组、分区)
MapReduce实战小案例原创 2022-06-26 12:15:07 · 6925 阅读 · 2 评论 -
编写Java代码打印Hadoop中DataNode中的数据
文章目录1. 使用idea远程访问2. 在Linux本地上执行Java脚本前段时间老师布置了一个使用java代码打印hadoop中DataNode里数据的作业,起初不太熟悉在Linux里Java导包的步骤,来来回回花了很多时间去试错,最后终于弄好了,写篇博客记录一下我的目标是使用idea远程打印和在Linux中本地打印DataNode里面的数据:首先我们要知道的是Hadoop其实提供了很多端口供我们访问,我们可以通过特定的端口管理Hadoop中的很多组件,例如NameNode、DataNode、原创 2022-05-03 15:33:22 · 1878 阅读 · 1 评论 -
熟悉常用的HDFS操作(附录HDFS常用命令)
文章目录1. 学习目的2. 学习内容3. 实验一3.1 追加文本3.2 覆盖文本3.3 脚本完成4. 实验二4.1 下载文件脚本4.2 输出文件内容脚本4.3 显示单个文件信息脚本4.4 显示目录信息脚本4.5 自动创建目录脚本4.6 追加文件脚本4.7 删除文件脚本4.8 移动路径5. 实验三编写Java代码5.1 远程运行5.2 Linux端运行附录 hadoop常用命令1. 学习目的1、理解HDFS在Hadoop体系结构中的角色;2、熟练使用HDFS操作常用的Shell命令;3、熟悉HDFS操原创 2022-04-27 01:27:10 · 5750 阅读 · 0 评论 -
CentOS7安装JDK8和Hadoop2单机版安装&伪分布式安装
文章目录1.虚拟机安装Centos7环境(有环境的同学跳到后面)2. 配置java环境2.1 yum安装2.2 上传安装包手动安装3. 安装单机版Hadoop首先解压压缩包:配置环境变量刷新配置查看一下更换hadoop配置文件中JavaHomeHadoop目录结构4. 伪分布式安装4.1 修改配置文件修改core-site.xml修改hdfs-site.xml格式化namenode4.2 启动启动namenode查看namenode是否启动启动datanode4.3 操作集群在文件系统中建立一个创建用户目录原创 2022-04-19 17:02:38 · 634 阅读 · 1 评论 -
Levenshtein Distance编辑距离应用实践——拼写检查(Java fork/join框架实现)
文章目录1. 实现莱文斯坦距离算法1.1 算法原理分析1.2 代码实现2. 使用fork/join进行匹配2.1 单线程匹配2.2 fork/join多线程匹配2.3 传统多线程版本2.4 结果对比Levenshtein Distance,一般称为编辑距离(Edit Distance,Levenshtein Distance只是编辑距离的其中一种)或者莱文斯坦距离,算法概念是俄罗斯科学家弗拉基米尔·莱文斯坦(Levenshtein · Vladimir I)在1965年提出。编辑距离是针对二个字符串(例原创 2022-04-18 13:39:11 · 895 阅读 · 0 评论