云函数 SCF 与对象存储实现 WordCount 算法

最新推荐文章于 2023-12-26 10:08:45 发布

Serverless

最新推荐文章于 2023-12-26 10:08:45 发布

阅读量460

点赞数

本文链接：https://blog.csdn.net/weixin_42409476/article/details/106340698

版权

本文介绍如何借助云函数SCF和对象存储COS，利用MapReduce模型实现WordCount算法。通过改造传统流程，分别编写Mapper和Reducer逻辑，并在Serverless Framework下进行部署测试，展示Serverless在大数据处理中的应用。

摘要由CSDN通过智能技术生成

本文将尝试通过 MapReduce 模型实现一个简单的 WordCount 算法，区别于传统使用 Hadoop 等大数据框架，本文使用云函数 SCF 与对象存储 COS 来实现。

MapReduce 在维基百科中的解释如下：

MapReduce 是 Google 提出的一个软件架构，用于大规模数据集（大于 1TB）的并行运算。概念「Map（映射）」和「Reduce（归纳）」，及他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。

通过这段描述，我们知道，MapReduce 是面向大数据并行处理的计算模型、框架和平台，在传统学习中，通常会在 Hadoop 等分布式框架下进行 MapReduce 相关工作，随着云计算的逐渐发展，各个云厂商也都先后推出了在线的 MapReduce 业务。

理论基础

在开始之前，我们根据 MapReduce 的要求，先绘制一个简单的流程图:

在这个结构中，我们需要 2 个云函数分别作 Mapper 和 Reducer；以及 3 个对象存储的存储桶，分别作为输入的存储桶、中间临时缓存存储桶和结果存储桶。在实例前，由于我们的函数即将部署在广州区，因此在广州区建立 3 个存储桶：

对象存储1    ap-guangzhou    srcmr
对象存储2    ap-guangzhou    middlestagebucket
对象存储3    ap-guangzhou    destcmr

为了让整个 Mapper 和 Reducer 逻辑更加清晰，在开始之前先对传统的 WordCount 结构进行改造，使其更加适合云函数，同时合理分配 Mapper 和 Reducer 的工作：

功能实现

编写 Mapper 相关逻辑，代码如下：

# -*- coding: utf8 -*-
import datetime
from qcloud_cos_v5 import CosConfig
from qcloud_cos_v5 import CosS3Client
from qcloud_cos_v5 import CosServiceError
import re
import os
import sys
import logging
logging.basicConfig(level=logging.INFO, stream=sys.stdout)
logger = logging.getLogger()
logger.setLevel(level=logging.INFO)
region = u'ap-guangzhou'  # 根据实际情况，修改地域
middle_stage_bucket = 'middlestagebucket'  # 根据实际情况，修改bucket名
def delete_file_folder(src):
    if os.path.isfile(src):
        try:
            os.remove(src)
        except:
            pass
    elif os.path.isdir(src):
        for item in os.listdir(src):
            itemsrc = os.path.join(src, item)
            delete_file_folder(itemsrc)
        try:
            os.rmdir(src)
        except:
            pass
def download_file(cos_client, bucket, key, download_path):
    logger.info("Get from [%s] to download file [%s]" % (bucket, key))
    try:
        response = cos_client.get_object(Bucket=bucket, Key=key, )
        response['Body'].get_stream_to_file(download_path)
    except CosServiceError as e:
        print(e.get_error_code())
        print(e.get_error_msg())
        return -1
    return 0
def upload_file(cos_client, bucket, key, local_file_path):
    logger.info("Start to upload file to cos")
    try:
        response = cos_client.put_object_from_local_file(
            Bucket=bucket,
            LocalFilePath=local_file_path,
            Key='{}'.format(key))
    except CosServiceError as e:
        print(e.get_error_code())
        print(e.get_error_msg())

最低0.47元/天解锁文章

Serverless

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
云函数 SCF 与对象存储实现 WordCount 算法

本文将尝试通过 MapReduce 模型实现一个简单的 WordCount 算法，区别于传统使用 Hadoop 等大数据框架，本文使用云函数 SCF 与对象存储 COS 来实现。MapReduce 在维基百科中的解释如下：MapReduce 是 Google 提出的一个软件架构，用于大规模数据集（大于 1TB）的并行运算。概念「Map（映射）」和「Reduce（归纳）」，及他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。通过这段描述，我们知道，MapReduce 是面向大
复制链接

扫一扫