大数据_大数据概述

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_37808093/article/details/81161589

    大数据:大量日常、工作等事务产生的数据量比以前有爆炸式增长,传统的数据处理技术无法满足数据处理任务,一套处理海量数据的工具应用而生。

大数据在实际中的使用:经营情况分析、各类推荐系统、精准广告营销等

处理海量数据和核心技术:分布式

分布式包括:1.分布式数据存储        2.分布式数据运算

其中流行的大数据存储框架:

        1.HDFS——分布式文件存储系统(HADOOP中的存储框架)

        2.Hbase——分布式数据库

        3.Kafaka——分布式消息缓存系统

流行的运算框架:

        1.MapReduce——离线批处理(Hadoop中的运算框架)

        2.Spark——离线批处理/实时流式计算

        3.Storm——实时流式计算

辅助类工具:

        1.Hive——数据仓库(可以接收sql,翻译成mapreduce或者spark程序运行)

        2.Flume——数据采集

        3.Sqoop——数据迁移

        4.ElasticSearch——分布式的搜索引擎

展开阅读全文

没有更多推荐了,返回首页