Hadoop学习
文章平均质量分 88
rookiexiong
这个作者很懒,什么都没留下…
展开
-
分布式计算平台 Hadoop 简介
Hadoop是一种分析和处理大数据的软件平台,是一个用Java语言实现的Apache的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。其主要采用MapReduce分布式计算框架,包括根据GFS原理开发的分布式文件系统HDFS、根据BigTable原理开发的数据存储系统HBase以及资源管理系统YARN。原创 2024-01-10 19:50:36 · 1056 阅读 · 0 评论 -
Hadoop 实战 | 词频统计WordCount
该程序基于Hadoop MapReduce框架实现了简单的单词计数功能,适用于大规模文本数据的并行处理。WordCount(词频统计)/* Map函数,处理每一行的文本 */input//Value使用Text类型表示文本行2:从文本中提取文档ID和实际文本内容snippet;3:使用空格、单引号和破折号作为分隔符,将文本snippet分词;for文本snippet中的每个单词:5: 去除特殊字符后将写入context,发射给Reducer;end for。原创 2024-01-10 19:57:47 · 2970 阅读 · 0 评论 -
Hadoop 实战 | 倒排索引 InvertedIndex
通过倒排索引,检索系统能够以更高效的方式在大规模文档集合中定位包含特定词项的文档,从而为用户提供快速准确的搜索结果。当用户发起查询关键词时,需要扫描索引库中的所有文档,找出所有包含关键词的文档,在检索过程中效率较低。倒排索引(Inverted Index)是信息检索领域中的一种数据结构,它是一种反转(倒排)文档-词项关系的数据结构,以支持通过词项来查找相关文档。由于需要统计单词的来源文章,因此对于Mapper需要将生成的中间键值对由改为 ;原创 2024-01-10 20:01:11 · 1350 阅读 · 0 评论