作者:禅与计算机程序设计艺术
1.简介
Twitter是一个巨大的社交媒体网站,每天都有数以亿计的用户参与其中。许多企业利用其数据的价值已经成为众矢之的。比如,广告、营销、市场调研等方面都依赖于Twitter数据。
Streaming Large Collections of Twitter Data in Real-Time with Apache Kafka and Storm
由于Twitter在快速发展中,人们希望能够实时获取Twitter的数据。传统的基于日志的方式不再适用。我们需要更快捷的方法来处理海量数据并提取有用的信息。
Kafka和Storm是当前最流行的开源分布式消息传递系统。它们可以帮助我们处理实时数据。我们可以使用Kafka作为消息代理来接收Twitter API的数据,并且可以使用Storm集群进行处理和分析。
本文将主要介绍如何使用Apache Kafka和Storm实时处理大规模的Twitter数据集。读者应该有一些关于分布式消息系统的知识,包括如何设置Kafka集群、Storm集群以及如何使用它们提供的API。本文也会涉及到一些关键词,如API、SDK、Redis、MongoDB、HBase等。
2.背景介绍
2.1 消息传递系统
消息传递系统(Message Passing System)描述了两个或多个进程之间如何发送和接收消息的机制。其核心是进程之间的通信通道——