学习笔记-初识大数据

一、写在前面

1.1大数据是什么?

随着信息技术迅速发展,从互联网到移动互联网时代,再到之后的物联网时代,数据一直在以一种前所未有的速度增长,这个时候就出现了一个新名词:大数据。


所谓的大数据,其实也就是大数据……听起来有点奇怪,但大数据其实就是个非常简单的词汇,顾名思义,大数据就是无法在有限时间内,用常规软件工具对其进行获取、存储、管理的数据集合。硬要理解的话,就是非常庞大的数据就是了。

1.2大数据的四个特征

目前,业界普遍认为大数据具备四个特征,Volume、Velocity、Variety 和 Value,简称4V,也就是数据量庞大、数据速度快、数据类型多、数据价值密度低。

1.3大数据的产生

大数据从各行各业采用数据库作为数据管理的方式而开始,大概分为三个阶段。

  • 运营式系统阶段:人类社会广泛开始运用数据库,比如医院、超市等等……
  • 用户原创内容阶段:互联网诞生,博客、微信风靡社会,智能手机、平板电脑让广泛的你我接触互联网,大家都成为了创作者,源源不绝地朝互联网输出内容。
  • 感知式系统阶段:计算机微型化,各种传感器遍布社会的各个角落,每天都有庞大的数据产出。
1.4大数据的作用

知己知彼百战不殆,不管是在战场还是在商业中,情报量都起着至关重要的作用,而大数据就是现代的情报,可以看出它有多重要了……搜索引擎、短视频APP、出行的公交系统……大数据在生活中无处不可见,无处不可用。

二、大数据处理的基本流程

大数据来源广泛,应用需求和数据类型都不尽相同,不过最基本的处理流程是一样的。


一般来说,大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释这三个步骤。

2.1数据抽取与集成

大数据来源广泛、种类多样、数据类型极其复杂,就像是想要从海水当中萃取盐分一样,想要从这样庞大杂乱的数据中提取价值,那首先就要对数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合后再采用统一定义的结构来存储这些数据。


在数据抽取和集成时,需要对数据进行清洗,保证数据的质量和可信。数据抽取和集成并不是大数据时代特有的技术,而是在传统的数据库领域就存在了,一直到大数据时代渐渐发展成熟,直到现在,现有的抽取与集成方法大概可以分为四种:


基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。

2.2数据分析

抽取、集成之后是数据分析,2.1中说抽取集成是海水中萃取出盐分,那数据分析就是二次加工,将粗盐精制为能够食用的食用盐……


和抽取与集成一样,数据分析同样不是大数据时代特有的技术,在以前同样也有统计分析、数据挖掘和机器学习等,不过这些技术不能适应大数据时代数据分析的要求,必须有所调整,而这个调整又面临着几个问题:

  • 1.庞大的数据必然带来庞大的噪音,需要事前进行清洗,不过由于数据量过大,对于计算机资源和算法都是一个考验。
  • 2.大数据时代的应用常常具有实时性的特定,因此算法的准确性不再是主要指标,而是需要再实时性和准确率之间取一个平衡。很多传统的算法都是现行执行,在大数据时代,这些算法都需要变为并发,以应对大数据的处理。
  • 3.对数据结果的衡量标准比较困难,因为数据量大、内心混杂、产生速度快,进行分析的时候往往对整个数据的分布特点掌握得不清楚,从而导致设计衡量的方法和指标非常苦难。
2.3数据解释

数据解释又称为数据分析,是大数据处理的核心,前两道工序将数据挖掘了出来,这个时候就要根据数据分析出一个结果了,比如有一个白领上班时间的大数据,那么根据大数据分析出今天这个白领在九点钟是否会出门上班……这个就叫做数据解释。


数据解释的方法很多(比如直接以文本方式输出结果),比较传统的解释方法无疑在大数据时代不适用,这个时候可以考虑从两个方面提升数据解释能力:

  • 1.引入可视化技术,常见的可视化技术有标签云、历史流、空间信息流等。
  • 2.让用户能够在一定时间程度上了解和参与具体的分析过程,比如人机交互技术。

三、大数据涉及到的关键技术

想要完整体现大数据的价值,需要多种技术的协同,这些技术涵盖数据存储、处理、应用等多方面,可以根据大数据的处理过程,将其分为大数据采集、大数据预处理、大数据存储管理、大数据处理、大数据分析和挖掘、大数据展示等。

3.1大数据采集

从各种途径获取数据的过程就叫做大数据采集,常用的采集方法有数据库采集、系统日志采集、网络数据采集、感知设备数据采集。

3.2大数据预处理

大数据预处理包括数据清洗、数据集成、数据转换和数据消灭。这里暂时先做了解,就不详细学习了。

3.3大数据处理技术

对于如何处理大数据这个问题,一般有两个方向,一是集中式计算,也就是一台计算机不断增加处理器……二是分布式计算,在过去因为分布式计算理论较为复杂,所以一直是集中式计算优先。不过现在……通过分布式可以完成一个提升服务器计算能力的解决方案:服务器集群。

总结

以上就是我对大数据的一个初次了解,除了一些基础的理论知识外,后面的例如Hadoop、HDFS处理框架和其他的知识,着实让我看的头疼。

并且,像是大数据抽取这一块,还需要用到爬虫之类的技术,这也是我没有接触过的,现在想要继续往下学习,就是一块深坑了,想往这个方面发展的话,还需要花上很多的时间,以后慢慢深耕才行……

参考

大数据处理的基本流程:数据抽取与集成+数据分析+数据解释

C语言中文网

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值