大数据概论

什么是大数据?

​ 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

​ 在维克托·迈尔-舍恩伯格维克托·迈尔-舍恩伯格)及肯尼斯·库克耶编写的《大数据时代》 [1] 中大数据指不用随机分析法、抽样调查这样捷径,而采用所有数据进行分析处理。(百度百科)

大数据的5V特点

Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

Volume:即数据量大

Velocity:即数据增长速度快

Variety:即种类和来源多样

Value:即信息的价值密度低

Veracity:即数据可信度高、真实性高

大数据的应用场景
  • 制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。

  • 金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

  • 汽车行业,利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。

  • 互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。

  • 电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。

  • 能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。

  • 物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。

  • 城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。

  • 生物医学,大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。

  • 体育娱乐,大数据可以帮助我们训练球队,决定投拍哪种题财的影视作品,以及预测比赛结果。

  • 安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。

  • 个人生活, 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。

大数据分析流程

在这里插入图片描述

大数据技术生态体系

在这里插入图片描述

1) Sqoop: Sqoop 是一款开源的工具,主要用于在 Hadoop、 Hive 与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL, Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
2) Flume: Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;
3) Kafka: Kafka 是一种高吞吐量的分布式发布订阅消息系统;

4) Spark: Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。
5) Flink: Flink 是当前最流行的开源大数据内存计算框架。 用于实时计算的场景较多。
6) Oozie: Oozie 是一个管理 Hadoop 作业(job)的工作流程调度管理系统。
7)Hbase: HBase 是一个分布式的、面向列的开源数据库。 HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
8) Hive: Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。
9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

参考链接:https://www.jianshu.com/p/1c3e7b416ba7

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据概论是指对海量的、复杂的、高维度的数据进行收集、处理和分析的一门学科。随着信息技术的快速发展,大量的数据被产生和积累,想要从这些数据中获得有价值的信息和洞察力,就需要借助大数据概论的方法和技术。 大数据概论主要包括以下几个方面。首先是大数据的处理和存储技术,包括分布式存储系统、并行计算框架、分布式文件系统等。这些技术可以帮助我们有效地存储和处理大规模的数据。其次是数据挖掘和机器学习的方法,通过这些方法可以从大数据中发现隐藏的模式和规律,并用于预测和决策。此外,数据可视化和探索数据分析也是大数据概论的重要内容,通过可视化技术可以将复杂的数据转化为直观的图表和可视化图像,帮助人们更好地理解和分析数据。 大数据概论在各个领域都有广泛的应用。在商业领域,大数据概论可以帮助企业分析市场趋势、预测产品需求,并进行个化推荐和营销策略优化。在金融领域,大数据概论可以用于风险控制和反欺诈,帮助银行和保险公司降低风险和损失。在医疗领域,大数据概论可以用于疾病预测和诊断,辅助医生做出更准确的诊断和治疗方案。 总之,大数据概论是一门应用于处理和分析大数据的学科。它涵盖了数据处理和存储技术、数据挖掘和机器学习方法,以及数据可视化和探索数据分析等方面。通过应用大数据概论的方法和技术,可以从海量的数据中提取有价值的信息和知识,为各个领域带来新的机遇和挑战。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值