数据科学导论续

最新推荐文章于 2024-09-30 18:49:50 发布

烟雨平生9527

最新推荐文章于 2024-09-30 18:49:50 发布

阅读量1k

点赞数 17

分类专栏： # 数据科学导论文章标签：软件工程

本文链接：https://blog.csdn.net/qq_62377885/article/details/138292639

版权

数据科学导论专栏收录该内容

12 篇文章 1 订阅

订阅专栏

本文详细介绍了大数据采集的多种方法，包括Flume、Chukwa、Scribe和Kafka等工具；概述了Hadoop、MapReduce、Spark等大数据计算框架，以及流计算和交互式分析的发展。同时，对云计算的原理、并行计算与分布式计算的区别进行了阐述，以及IaaS、PaaS和SaaS的分类。

摘要由CSDN通过智能技术生成

一、大数据采集的流程和方法

大数据采集的流程和方法

系统日志采集方法

很多互联网企业都有自己的海量数据采集工具，多用于系统日志采集，例如：

Flume：分布式日志收集系统，最初由Cloudera开发，现是Apache的一个开源项目。
Chukwa：开源分布式数据收集系统，构建在HDFS和MapReduce框架之上。它可以用于监控（2000个以上节点，每天产生数据量在TB级别）Hadoop集群的整体运行情况并对他们的日志进行分析。
Scrible：Scribe是facebook开源的日志收集系统，在facebook内部已经得到大量的应用。Scribe为日志的“分布式收集，统一处理”，提供了一个可扩展的、高容错的方案。
Kafka：最早是LinkedIn的开发的消息系统，现是Apache的一个开源项目。

Apache Flume

数据库采集方法

网络数据采集方法

网络爬虫工具基本可以分为3类。

（1）分布式网络爬虫工具，如Nutch。

（2）Java网络爬虫工具，如Crawler4j、WebMagic、WebCollector。

（3）非Java网络爬虫工具，如Scrapy（基于Python语言开发）

通用网络爬虫

二、大数据计算框架概述

大数据计算框架概述

Hadoop

MapReduce

Spark实时处理系统

流计算框架

Storm

Trident

交互式分析框架

在解决了大数据的可靠存储和高效计算后，如何为数据分析人员提供便利日益受到关注，而最便利的分析方式莫过于交互式查询。这几年交互式分析技术发展迅速，目前这一领域知名的平台有十余个，包括Google开发的Dremel和PowerDrill，Facebook开发的Presto， Hadoop服务商Cloudera和HortonWorks分别开发的Impala和Stinger，以及Apache项目Hive、Drill、Tajo、Kylin、MRQL等。

一些批处理和流计算平台如Spark和Flink也分别内置了交互式分析框架。由于SQL已被业界广泛接受，目前的交互式分析框架都支持用类似SQL的语言进行查询。早期的交互式分析平台建立在Hadoop的基础上，被称作SQL-on-Hadoop。后来的分析平台改用Spark、Storm等引擎，不过SQL-on-Hadoop的称呼还是沿用了下来。SQL-on-Hadoop也指为分布式数据存储提供SQL查询功能。