大“数”至简

大“数”至简

中国传统文化讲究大道至简,就是说大道理(指基本原理、方法和规律)是极其简单的,简单到一两句话就能说明白,一门技术一门学问,弄得很深奥是因为没有看穿实质,搞的很复杂是因为没有抓住程序的关键,武术高手在搏击时总是一招制敌,击中要害。大数据已经成为当下最流行的词汇,它能够在浩瀚的数据海洋中发现那些最为珍贵的宝藏,把复杂的数据关系以简单明了的形式呈献给用户,这也有大道至简的含义在里面。那么什么是大数据?它又是如何为我们服务?下面将逐一展现。

1、 大数据的概念

就像云计算一样,大数据,已经成为当下非常流行的词汇。大数据的概念貌似离我们遥不可及,但是其实他的应用就在我们周边,特别是在云计算的环境中。云计算是否让大数据更加亲民,可以参考最近的例子,美国国家安全局NSA以反恐为名义实施“棱镜”计划,对多家通信商、社交网络Facebook,Google等网络媒体中数千万用户的通话、图片、博客等信息进行分析,在这场针对于民间的反恐活动中,可以肯定,大数据很给力!它将一直使用多年的技术与做法用一个短语“Big Data”体现出来。

凡是对于新事物的理解总要有个对比,这样才能够容易明白。传统的数据管理方式已经有了几十年的历史,人们对传统数据管理方式也更加了解,所以将它与大数据进行简单的对比。大数据与传统数据处理方式就像一个在“海里捕鱼”,一个在“池塘捕鱼”。这两者之间存在着四种差异,即“容量”差异,“鱼类”差异,“捕鱼工具”差异,“鱼类珍贵性”差异。“容量”差异是指数据规模的不同。“池塘”的规模与“大海”这种规模相比要小很多。“鱼类”差异是指数据类型的差异。过去“池塘”中的“鱼”种类单一,往往仅仅有一种或者几种,而在“大海”中数据种类繁多,包括结构化、半结构化以及非结构化的数据,并且半结构化与非结构化化所占的份额越来越大。“捕鱼工具”差异是指捕捞“池塘”中的“鱼”,使用渔网加上几只小船就能够完成。但是在“大海”中,不可能用一种渔网捕获所有的鱼类,至少需要使用更加专业的捕鱼船,再配合上各种材质的渔网才能够完成。“鱼类珍贵性”差异是在在“池塘”中的“鱼”仅仅作为被捕捞的对象,而在“大海”中,“鱼”除了是捕捞对象外,还可以通过某些“鱼”的存在判断其他种类“鱼”是否存在,也就是说传统数据库中数据仅作为处理对象,而在大数据时代,要讲数据作为一种资源来辅助解决其他诸多领域的问题。

图灵奖获得者,著名数据库专家Jim Gray博士观察并总结人类自古以来,在科学研究上,先后经历了实验、理论与计算3种范式。当数据量不断增长与积累到今天,传统的3种范式在科学研究,特别是一种新的研究领域已经无法很好地发挥作用,需要一种全新的第4范式来指导新形势下的科学研究。基于这种考虑,Jim Gray提出了一种新的数据探索型研究方式,他称之为“第4范式”。第4范式的实质是一种从计算以计算为中心转变到以数据处理为中心,也就是我们所说的数据思维。也就是像前面所比喻的,传统计算方式是生产数据,向“池塘”里播撒“鱼苗”,而大数据是在管理以及挖掘数据的更深含义,是在“捕鱼”。大数据的概念在业界还尚未有明确的定论,但是通过分析不难发现,大数据至少包括三个特性,即规模性(volume)、多样性(variety)以及高速性(velocity)。另外,IDC还认为具有价值性,IBM认为大数据必然具备真实性。维基百科中倒是给出了简单明了的定义:大数据是指利用常用软件工具捕获、管理与处理数据所耗时间超过可容忍时间的数据集。

2、 大数据的应用

随着日益增加的存储容量以及不断下降的存储成本,同时在数据分析方面的巨大进步,使得大数据为新型企业和行业提供服务成为可能。无可置疑的是,大数据的崛起与快速发展的IaaSPaaS技术密切相关。PaaS服务可以让企业轻松地提升生产能力,同时还能降低成本;而IaaS服务能够让企业快速部署额外的计算节点。二者同时能够使得企业的计算与存储能力能够瞬时提升。

围绕着数据信息展开的整个行业链已经形成。从数据的产生到数据的处理,在整个链条中,不同的企业扮演者不同的角色。行业咨询位于整个行业链的最后,也是最高端的服务形态。好比股票市场,各种股票信息的发生源,提供给信息存储与管理商,然后再以可视图形的方式展示出来,如大盘趋势线,然后在提供给股票分析公司,从而分析股市行情,决策买卖。

对于卖方而言,通过对长达多年的客户数据分析从而试图寻找存在的模式关系,以便可以帮助基金投资组合经理建立长期的投资策略。对于购买方,开采的客户更近期的数据就不同资产贸易/报价活动。大学和学院客户寻求在长达几十年的数据。无论客户的具体使用情况,需要技术来处理和分析大量和笨重的数据量。

科学研究员,金融分析师和制药公司已经长期使用令人难以置信的大数据集来回答更加令人难以置信的复杂问题。大数据集,尤其当结合多种信息进行分析时,可以揭示出深藏不露的模式与关系。

3、大数据处理框架


1)数据抽取与集成

大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂,这种复杂的数据环境给大数据的处理带来了极大的挑战。要想处理大数据,首先必须对所需数据源的数据进行抽取与集成,从中提取关系与实体,经过关联与聚合之后采取一定的结构来存储这些数据。

2)数据分析

数据分析是整个大数据处理流程的核心,因为大数据的价值产生于分析过程。从异构数据源抽取与集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或者部分数据进行分析。传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要作出调整。

3)数据解释

数据分析是大数据处理的核心,但是用户往往更关心结果的展示。如果分析的结果正确但是没有采用合适的解释方法,则所得到的结果很可能让用户难以理解,极端情况下甚至会误导用户。数据解释的方法很多,比较传统的就是以文本形式输出结果或者直接在电脑终端上显示结果。这种方法在面对小数据量时是一种很好的选择。但是大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系及其复杂,采用传统的及时方式基本不可行。可以考虑从以下两个方面提高数据解释能力:

(1)   引入可视化技术。可视化技术率先被科学与工程计算领域采用,通过分析结果的可视化用形象的方式向用户展示结果,而且图形化的方式比文字更容易理解与接受。常见的可视化技术有标签云,历史流等。

(2)   让用户在一定程度上了解参与具体的分析过程。这个既可以采用人机交互技术,利用交互式的数据分析过程来引导用户逐步进行分析,是的用户在得到结果的同时更好地理解分析结果的由来,也可以采用数据起源技术,通过该技术可以帮助追溯整个数据分析过程,用助于用户理解结果。

4、我们真的需要大数据吗?

大数据适合贵公司?如果想受益于大数据,那么这将是任何企业都必须问的第一个问题。首先了解数据集提供给您。例如,分析股票的收盘价格为20年,不太可能会需要大数据系统的力量。鉴于此数据集的规模相对较小,分析,应该,可以使用SQL甚至干脆Excel中进行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
FPGA(Field-Programmable Gate Array)即现场可编程门阵列,是一种集成电路芯片,其特点是能够在实验时灵活地重新编程功能和连接。FPGA至简设计原理与应用实验手册是一本详细介绍了FPGA原理和应用实验的手册。 FPGA至简设计原理与应用实验手册首先详细介绍了FPGA的基本原理和结构,包括FPGA内部的查找表(Look-up table)、存储单元、电路资源以及可编程的互连结构等。同时,手册还着重介绍了FPGA的编程语言,如VHDL和Verilog,以及使用Xilinx ISE或Altera Quartus等开发工具进行FPGA设计的基本步骤和流程。 手册接下来介绍了FPGA的应用实验,包括字电路设计、时序电路设计、计算机字系统、通信系统以及图像和视频处理等方面。对于每个应用实验,手册都提供了清晰的实验目标、设计原理和设计步骤等,并配有详细的实验指导和示例代码,方便读者进行实验操作和学习。 FPGA至简设计原理与应用实验手册的目的是帮助读者深入理解FPGA的原理和应用,通过实际的实验操作提升读者的设计和开发能力。除了提供基础的实验内容,手册还鼓励读者进行创新和扩展,通过设计自己的FPGA应用实验来实践所学知识。 总之,FPGA至简设计原理与应用实验手册是一本涵盖FPGA基本原理、编程语言和应用实验的详细指导手册。通过学习和实践手册中的内容,读者可以掌握FPGA的原理和应用,提升自己的设计和开发能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值