大数据技术;结构化数据与非结构化数据

本文探讨了大数据技术的四个关键特征(规模性、多样性、高速性和价值性),描述了大数据处理流程及其重要性,以及结构化数据与非结构化数据的区别和处理挑战。同时,强调了云计算在大数据背景下的角色和大数据技术对数据分析的新趋势。
摘要由CSDN通过智能技术生成

一、大数据技术

大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”(Massive Data)、“超大规模数据”(Very Large Data)等概念之间有何区别。

大数据的特征(特点)

(1)规模性(Volume)

         随着信息化技术的高速发展,数据开始爆发性增长。大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以 PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。

(2)多样性(Variety)

          多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。

        ①数据来源多,企业所面对的传统数据主要是交易数据,而互联网和物联网的发展,带来了诸如社交网站、传感器等多种来源的数据。而由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。大体可以分为三类:一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。

        ②数据类型多,并且以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中有70%-85%的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。

        ③数据之间关联性强,频繁交互,如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。

(3)高速性(Velocity)

  这是大数据区分于传统数据挖掘最显著的特征。大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

(4)价值性(Value)

  尽管企业拥有大量数据,但是发挥价值的仅是其中非常小的部分。大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。

大数据处理流程及技术

大数据处理流程,主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化等环节,每一个数据处理环节都会对大数据质量产生影响.

通常一个好的大数据产品要有以下特征:

1.大量的数据规模;

2.快速的数据处理能力;

3.精确的数据分析与预测能力;

4.优秀的可视化图表以及简练易懂的结果解释

 大数据与云计算的关系

   云计算与大数据是一对相辅相成的概念,它们描述了面向数据时代信息技术的两个方面,云计算侧重于提供资源和应用的网络化交付方法,大数据侧重于应对巨大的数据量所带来的技术挑战。

  云计算之于大数据,云计算是底层平台,大数据是应用。云计算作为底层平台整合计算、存储和网络等资源,同时提供基础脚骨资源弹性伸缩的能力。大数据在云计算平台的支撑下,调度下层资源,进行数据源加载,计算和最终结果输出等动作。

  云计算的核心是业务模式,其本质是数据处理技术,数据是资产,云计算为数据资产提供了储存、访问的场所和计算能力,即云计算更偏重大数据的存储和计算,以及提供云计算服务,运行云应用。但是云计算缺乏盘活数据资产的能力,从数据挖掘价值和对数据进行预测性分析,为国家治理决策,企业决策乃至个人生活提供服务,这是大数据的核心应用,云计算是基础设施架构,大数据是思想方法,大数据技术将帮助人们从大体量、高度复杂的数据中分析、挖掘信息,从而发现价值和预测趋势。

 二、结构化数据与非结构化技术

  结构化数据是指按照一定的规则和格式进行组织和存储的数据。它具有明确的数据类型和关系,可以通过预定义的模式或模型进行描述和解释。常见的结构化数据包括关系型数据库中的表格数据、电子表格中的数据、XML文件中的数据等。结构化数据通常可以通过查询和分析工具进行处理和分析,从中提取有用的信息和洞察。与结构化数据相对的是非结构化数据,如文本、图像、音频和视频等,它们没有明确的结构和格式,处理和分析起来更加困难。

  非结构化数据是指没有明确的结构和格式的数据,它不符合传统的表格、行列或关系型数据库的组织形式。非结构化数据的特点是多样性、复杂性和不规则性,常见的非结构化数据包括文本文档、电子邮件、社交媒体帖子、音频和视频文件、图像、日志文件等。

  与结构化数据不同,非结构化数据没有明确的数据模型或模式,因此处理和分析非结构化数据更具挑战性。传统的关系型数据库和查询语言无法直接处理非结构化数据,需要使用特定的技术和工具进行处理,如自然语言处理、文本挖掘、图像识别、语音识别等。

  非结构化数据在现实生活中广泛存在,例如社交媒体上的用户评论、新闻文章、音频和视频文件中的内容、传感器数据等。对非结构化数据的分析和挖掘可以帮助企业和组织发现隐藏的信息、洞察用户需求、进行情感分析、进行风险评估等。

  随着网络技术的发展,特别是InternetIntranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了后关系数据库时代,发展进入基于网络应用的非结构化数据库时代。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值