![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 59
slmady
学习记录
展开
-
mapreduce问题记录
# -*- coding:utf-8 -*- import sys import os from collections import defaultdict def emoji_merge(tokens): res = [] emoji = "" flag = False for token in tokens: if token == '[': flag = True emoji = token原创 2021-04-07 15:18:57 · 224 阅读 · 0 评论 -
Join
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.util.Tool; import org.apac原创 2015-12-09 11:31:24 · 497 阅读 · 0 评论 -
Streaming(C++)实现WordCount
Streaming 提供来Mapreduce的API,允许我们用非JAVA语言编写map和reduce函数,这是我第一次使用Streaming,也是第一次在linux写shell脚本,值得记录一下(2015/12/16)! 我以前习惯用C++写程序,所以这里用C++实现map和reduce。 先介绍下使用Streaming实现的步骤: 1、写map和reduce函数 2、在linux下测试原创 2015-12-16 15:23:25 · 1244 阅读 · 0 评论 -
WordCount
记录一个简单的WordCount程序,以后当做模板用 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoo原创 2015-12-07 10:33:21 · 396 阅读 · 0 评论 -
倒排索引的简化版
简单介绍下倒排索引:它广泛的应用于全文搜索引擎,提供了一种根据内容查找文档的方式,一般情况下,我们是知道文档才会知道文档的内容,而搜索是依靠关键字进行查找的,这与一般的情况相反,所以称为倒排索引。 现在我们的任务是: 已知三个文档: file1: mapreduce is simple file2: mapreduce is powerful is simple file3: hello原创 2015-12-08 10:16:14 · 389 阅读 · 0 评论