2021-03-02

最新推荐文章于 2024-05-20 09:56:05 发布

浅伤 _♡

最新推荐文章于 2024-05-20 09:56:05 发布

阅读量150

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_55687696/article/details/114283025

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

          **作业**

大数据生态和speak技术的简介有关于大数据这个问题；学界和业界比较认可4V这个概念：大量（Volume）、高速（Velocity）、多样（Variety）、低价值密度（Value）。大数据的用法倾向于预测分析、用户行为分析或某些其他高级数据分析方法的使用。一、总论想要系统的认知大数据，必须要全面而细致的分解它，着手从三个层面来展开：1.（一）第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性；从对大数据价值的探讨来深入解析大数据的珍贵所在；洞悉大数据的发展趋势；从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。（二）第二层面是技术，技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。（三）第三层面是实践，实践是大数据的最终价值体现。在这里分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。**2.**大数据的价值体现在以下几个方面：1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。做小而美模式的中小微企业可以利用大数据做服务转型。面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。二.大数据分析的工具数据挖掘和数据分析的能力在当今时代相当重要，智能的工具是你与竞争对手对抗并为公司业务增加优势的必备条件。*1. *Hadoop 是最流行的软件框架之一，它为大数据集提供了低成本的分布式计算的能力。使 Hadoop 成为功能强大的大数据工具之一的因素是其分布式文件系统，它允许用户将 JSON、XML、视频、图像和文本等多种数据保存在同一文件系统上。开发语言：Java当前稳定版本：Hadoop 2.1定价：开源、免费许可。2.Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。3.mapreduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。它通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性，极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。**4.**数据可视化工具PowerBIMicrosoft PowerBI同时提供本地和云服务。它最初是作为Excel插件引入的，不久PowerBI凭借其强大的功能开始普及。目前，它被视为商业分析领域的软件领导者。它提供了数据可视化和bi功能，使用户可以轻松地以更低的成本实现快速，明智的决策，用户可协作并共享自定义的仪表板和交互式报告。SolverSolver是一家专业的企业绩效管理(CPM)软件公司。Solver致力于通过获取可提升公司盈利能力的所有数据源来提供世界一流的财务报告、预算方案和财务分析。其软件BI360可用于云计算和本地部署，它专注于四个关键的分析领域，包括财务报告、预算、仪表板和数据仓库。3.QlikQlik是一种自助式数据分析和可视化工具。它具有可视化仪表板，可简化数据分析，并帮助公司快速制定业务决策。图例：在这里插入图片描述在这里插入图片描述在这里插入图片描述spark技术简介Spark是一种安全的、经正式定义的编程语言，被设计用来支持一些安全或商业集成为关键因素的应用软件的设计。其通过运行用户定义的main函数，在集群上执行各种并发操作和计算Spark提供的最主要的抽象，Spark的正式和明确的定义使得多种静态分析技术在Spark源代码的应用中成为可能。（一）*speak技术的特点：*1．快与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。2．易用Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。3．通用Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。4．兼容性Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。