大数据离线计算

离线计算概述

所谓大数据离线计算,就是利用大数据的技术栈(主要是Hadoop),在计算开始前准备好所有输入数据,该输入数据不会产生变化,且在解决一个问题后就要立即得到计算结果的计算模式。
离线(offline)计算也可以理解为批处理(batch)计算,与其相对应的是在线(online)计算或实时(realtime)计算

离线计算的特点

大数据离线计算为多种应用场景提供基础计算功能,其特点 为:
 数据量巨大且保存时间长;
 在大量数据上进行复杂的批量运算,能够方便地查询批量计算的结果;
 数据在计算之前已经完全到位,不会发生变化。

大数据离线计算应用场景

大数据离线计算主要用于数据分析、数据挖掘等领域。技术栈主要是Hadoop
BI(全称为Business Intelligence,即商业智能)系统能够辅助业务经营决策。其需要综合利用数据仓库(基于关系型数据库)、联机分析处理(OLAP)工具(如各种SQL)和数据挖掘等技术。

离线计算架构

计算工具有 Hive、Pig、Spark SQL、Presto、MapReduce ,支持 Alluxio 的存储架构,形成了离线计算引擎
在这里插入图片描述
Hadoop集群
hadoop实现了一个分布式的基础框架,核心设计就是:hdfs和mapreduce
hdfs分布式存储:
将大文件按照一定大小拆分成多份,分别存储到独立的机器上,并且每一份可以设置一定的副本数,防止机器故障导致数据丢失,这种存储方式比传统关系型数据库/数据仓库使用的集中式存储,无论是容量、价格、吞吐率、鲁棒性等各方面都有明显优势。
mapreduce分布式计算:
核心思想是让多个机器并行计算,并通过对数据本地性的利用,尽量处理本机器上的那一部分数据,减少跨网络的数据传输。很多传统的数据库/数据仓库也支持利用多核CPU、集群技术来进行分布式计算,但Hadoop的分布式计算架构更为彻底。
YARN资源管理系统
它是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度.Yarn是轻量级弹性计算平台,除了MapReduce框架,还可以支持其他框架,比如Spark、Storm等
多种框架统一管理,共享集群资源:
  资源利用率高
  运维成本低
  数据共享方便

Spark 计算引擎服务
Spark旨在为高性能、迭代计算、时效性要求极高的场景服务。随着业务的飞速增长, 很多业务场景已经无法接受基于磁盘批处理的MapReduce计算服务, 更倾向使用基于内存与 SSD 作为存储进行迭代计算, 希望整体提升数据结果的时效性。

Presto计算引擎服务
基于内存的并行计算,Facebook推出的分布式SQL交互式查询引擎,多个节点管道式执行
支持任意数据源,数据规模GB~PB 是一种Massively parallel processing(mpp)(大规模并行处理)模型.数据规模PB 不是把PB数据放到内存,只是在计算中拿出一部分放在内存、计算、抛出、再拿

Hive 大数据查询引擎
它是目前业内能够支撑 GB/TB/PB 级数据仓库的通用解决方案 之一, 支持将 sql 语句转换为 MapReduce 任务, 能够快速处理海 量数据计算,有效降低分布式计算模型的使用成本。

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据离线分析PDF是指利用大数据技术对PDF文档进行离线分析和处理。PDF(Portable Document Format)是一种常见的文档格式,通常包含大量的文本、图片和表格等信息。而大数据分析则是利用大数据技术和算法对大量的数据进行处理和分析,从中挖掘出有价值的信息和模式。 大数据离线分析PDF的过程主要包括以下几个步骤: 1. 数据准备:将需要分析的PDF文档进行数据提取和转换,将文本内容提取出来,并结合其他相关数据源进行数据整理和清洗。 2. 数据存储:将处理过的PDF文本以结构化或非结构化的形式存储起来,通常使用分布式存储系统如Hadoop HDFS或Amazon S3等。 3. 数据处理:利用大数据处理框架(如Hadoop、Spark等)对大量的PDF文本进行分布式计算和处理,进行词频统计、关键词提取、文本分类等分析。 4. 数据挖掘:通过运用机器学习、自然语言处理等算法,对PDF文本进行挖掘,发现其中的模式、规律和趋势。可以用于文本聚类、信息抽取、情感分析等。 5. 数据可视化:将分析结果可视化,以图表、报表或地图等形式呈现,帮助用户更好地理解和利用分析结果。 大数据离线分析PDF具有许多应用领域,比如市场调研、舆情分析、信息抽取等。通过对大量的PDF文档进行离线分析,可以帮助企业和机构发现潜在的商机和风险,提供决策支持和业务洞察。 总的来说,大数据离线分析PDF是利用大数据技术对PDF文档进行全面的处理和分析,通过挖掘其中的信息和模式,为企业和机构提供更深入的洞察和价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值