Mapreduce实现大数据集共现矩阵问题

最新推荐文章于 2022-06-23 21:05:56 发布

IMRE

最新推荐文章于 2022-06-23 21:05:56 发布

阅读量881

点赞数 1

分类专栏： hadoop 文章标签：共现矩阵 Mapreduce hadoop

本文链接：https://blog.csdn.net/qq_39009237/article/details/92413076

版权

本文介绍了如何利用MapReduce解决大数据集共现矩阵问题。共现矩阵在语言模型和文本分析中有广泛应用，而MapReduce通过分布式计算处理大数据。文章详细阐述了解决思路，包括对小文件和大文件的处理，以及实现细节，如自定义输入格式以确保单词共现的正确计算。

摘要由CSDN通过智能技术生成

目录

相关知识简介

共现矩阵的应用

Mapreduce

解决思路

实现细节

代码详解

对于小文件的处理

对于大文件的处理

结果与分析

相关知识简介

共现矩阵的应用

共现矩阵是许多语言模型中常用的技术之一，其主要应用于主题发现和解决词向量之间的相近关系的表示。假设现在有语料：
“我爱吃西瓜” 和 “我喜欢吃西瓜” 分词得到 “我爱吃西瓜” 、“我喜欢吃西瓜”

如果使用传统的独热向量表示句子，将会丢失词与词之间的位置关系，tfidf算法表示也存在相同的问题。

一种常用的语言模型N-gram将每个句子中相邻的N个单词用一个编码表示，不再是以前的一个单词一个编码。其优点是考虑了词的位置顺序，实现的关键步骤是构建语料的共现矩阵。

此外，共现矩阵是提取文本关键词的关键步骤。构建语义相似度网络需要首先构建关键词共现矩阵。在上述的语料将窗口大小设置为2，求得语料的共现矩阵如下：

我喜欢吃西瓜爱

我 0 1 0 0 1

喜欢 1 0 1 0 0

吃 0 1 0 1 1

西瓜 0 0 1 0 0

爱 1 0 1 0 0

那么对于“爱”和“喜欢”的行（列）作为词向量可求得的相似度最接近，其语义最接近。

Mapreduce

MapReduce核心思想：分而治之

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。