大数据
文章平均质量分 89
MattTian
IT专业小白
展开
-
走进HDFS
HDFS是Hadoop的分布式文件系统,也是Hadoop能够经久不衰的原因。原创 2023-07-27 10:11:25 · 32 阅读 · 0 评论 -
Hadoop入门必看
操作系统、环境、网络、必须软件centos 6.5JDK 1.81.设置IP及主机名2.关闭防火墙&selinux3.设置hosts映射4.时间同步5.安装jdk设置SSH免秘钥。原创 2023-08-15 09:11:22 · 82 阅读 · 0 评论 -
CentOS 7 64位 部署Hadoop2.6.1
cent os7 部署Hadoop2.6.1伪分布式原创 2017-10-12 08:49:48 · 473 阅读 · 0 评论 -
Hadoops的基本理论和Shell操作
一、是什么1.是一个易于扩展的分布式文件系统2.可以运行在大量普通廉价机器上,提供容错机制3.可以为大量用户提供性能不错的文件存取服务二、优点高容错性:数据自动保存多个副本,副本丢失后,自动恢复适合批处理:移动计算而非数据,数据位置暴露给计算框架适合大数据处理:GB、TB、甚至PB级数据;百万规模以上的文件数量;10K+节点规模流式文件访问:一次性写入,多次读取;保证数据一致性可构建在廉价机器上:通转载 2017-10-15 09:14:27 · 319 阅读 · 0 评论 -
利用mapreduce统计单词个数
wordCount.classpackage wordCount;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.had原创 2017-10-24 08:45:15 · 823 阅读 · 0 评论