大数据简介

 

大数据


 

大数据意味着真正的大数据,它是大数据集的集合,不能使用传统的计算技术来处理。大数据不仅仅是一个数据,它已经成为一个完整的主题,涉及各种工具,技术和框架。

不能使用一台机器进行处理的数据

特性

  1. 大量性(volume): 一般在大数据里,单个文件的级别至少为几十,几百GB以上
  2. 快速性(velocity): 反映在数据的快速产生及数据变更的频率上
  3. 多样性(variety): 泛指数据类型及其来源的多样化,进一步可以把数据结构归纳为结构化(structured),半结构化(semi-structured),和非结构化(unstructured)
  4. 易变性: 伴随数据快速性的特征,数据流还呈现一种波动的特征。不稳定的数据流会随着日,季节,特定事件的触发出现周期性峰值
  5. 准确性: 又称为数据保证(data assurance)。不同方式,渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低
  6. 复杂性: 体现在数据的管理和操作上。如何抽取,转换,加载,连接,关联以把握数据内蕴的有用信息已经变得越来越有挑战性

关键技术

1.数据分布在多台机器

可靠性:每个数据块都复制到多个节点

性能:多个节点同时处理数据

2.计算随数据走

网络IO速度 << 本地磁盘IO速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行(程序运行时,将程序及其依赖包都复制到数据所在的机器运行)

代码向数据迁移,避免大规模数据时,造成大量数据迁移的情况,尽量让一段数据的计算发生在同一台机器上

3.串行IO取代随机IO

传输时间 << 寻道时间,一般数据写入后不再修改

大数据领域有什么?

大数据涉及由不同设备和应用程序产生的数据。下面是大数据领域的一些领域。

    1. 黑匣子数据 :它是直升机,飞机和喷气机等的组件。它捕捉飞行机组的声音,麦克风和耳机的录音,以及飞机的性能信息。
    2. 社会媒体数据 :Facebook和Twitter等社交媒体保存着全球数百万人发布的信息和观点。
    3. 证券交易所数据 :证券交易所数据保存关于由客户在不同公司的份额上做出的“买入”和“卖出”决定的信息。
    4. 电网数据 :电网数据保持特定节点相对于基站消耗的信息。
    5. 运输数据 :运输数据包括车辆的型号,容量,距离和可用性。
    6. 搜索引擎数据 :搜索引擎从不同的数据库检索大量数据。

因此,大数据包括大量,高速度和可扩展的数据

数据类型

  1. 结构化数据 :关系数据。
  2. 半结构化数据 :XML数据。
  3. 非结构化数据 :Word,PDF,文本,媒体日志

转载于:https://www.cnblogs.com/minniei/p/10612857.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值