大数据的认知

对大数据的简单认识
大家好我是皈心,是个刚刚走上大数据这个领域的标题萌新,希望各位大佬多多指教。
这是我的第一个博客来说说自己对大数据的认识,对大数据创意环境的构想以及自己在第一次实训中的感受有些不对的地方还请见谅。
一,对大数据的认识
“大数据”的由来

2008年9月4日,英国《自然》杂志刊登了一个名为“Big Data”的专辑,首次提出大数据概念,该专辑对如何研究PB级容量的大数据流,以及目前正在制订的、用以最为充分地利用海量数据的最新策略进行了探讨。2011、2012年达沃斯世界经济论坛将大数据作为专题讨论的主题之一,发布了《大数据、大影响:国际发展新的可能性》等系列报告。

2011年以来,中国成立了大数据委员会,研究大数据中的科学与工程问题,科技部《中国云科技发展“十二五”专项规划》和工信部《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。业界普遍认为,2013年是中国“大数据元年”。

“大数据”的内涵

【定义】

继物联网、云计算之后,“大数据”已迅速成为大家争相传诵的热门科技概念。“大数据”作为信息社会发展的一个新生事物,目前尚处在逐渐被认识、被应用的初始阶段,无论是学术界还是IT行业对大数据的理解各有侧重,尚未形成一套完整的理论体系。全球最具权威的IT研究与顾问咨询公司Gartner将“大数据”定义为“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。《互联网周刊》则认为,“大数据是通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力”。国家信息中心有关专家将“大数据”广义地界定为,“我国现代信息化进程中产生的和可被利用的海量数据集合,是当代信息社会的数据资源总和,是信息时代的全数据,既包括互联网数据,也包括政府数据和行业数据。”

【属性】

随着大数据的发展,大数据的内涵已不仅仅局限于技术维度,而是在演变过程中不断扩展,形成了一个语义更加丰富、维度更加多元的综合性的概念。

大数据是一类海量信息的数据集,是一项对海量数据进行快速处理并获取有价值信息的技术,更是一种新的认知世界和改造世界的思维方式和能力。大数据开启了一个以数据为基本元素的、以数据为战略资产的时代,在大数据时代掌握了数据就意味着拥有了核心竞争力。大数据时代让社会朝着更加个性化、民主化、自由化、开
1.“4V”特征

大数据在诞生之初仅仅是一个IT 行业内的技术术语,业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的内容特征。

一.是数据体量巨大(Volume)。国际数据公司(IDC)的研究结果表明,截至2012年,人类生产的所有印刷材料的数据量是200PB。IBM研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。【注:计算机存储单位一般用Byte、KB、MB、GB、TB、PB、EB、ZB、YB表示,它们之间的换算关系是:1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB……以此类推】

二.是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

大数据时代,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及各种各样的传感器,无一不是数据来源或者承载的方式。新出现的数据类型有以下几类:

1、以模拟形式存在的记录,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。

2、移动互联网出现后,移动设备传感器收集的大量的用户点击行为数据。

3、电子地图产生的大量的数据流数据。这些数据与传统数据反映一个属性或一个度量值相区别,代表着一种行为、一种习惯。

4、大量的互联网用户创造出海量的社交行为数据,反映出人们行为特点和生活习惯。

5、电商户崛起产生的大量网上交易数据,包含支付数据、查询行为、物流运输、购买喜好、点击顺序、评价行为等,其实质是信息流和资金流数据。

6、互联网搜索引擎上用户的搜索行为和提问行为聚集的海量数据。

三.是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题
四.是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

2.核心技术

大数据是一项能够对数量巨大、来源分散、格式多样的数据进行采集、存储和关联性分析的新一代信息系统架构和技术,分为四个层次。
数据采集与预处理——通过RFID射频技术、传感器以及移动互联网等方式获得各种类型的海量数据,并完成对已接收数据的辨析、抽取、清洗等操作。
数据存储与管理——用存储器把采集到的数据存储起来,建立相应的数据库进行管理和调用,主要解决大数据可存储可处理及有效传输等关键问题。
数据分析与挖掘——是大数据的最核心技术,主要是在现有的数据上进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。
数据展现与应用——将隐藏于海量数据中的信息挖掘出来,从而提高各个领域的运行效率。在我国,大数据重点应用于以下三大领域:商业智能、政府决策、公共服务。
3、社会属性

大数据能够帮助人们从信息社会海量数据中发现新知

识、创造新价值、提升新能力、形成新业态。人们用大数据的方法和意识来认知世界和改造世界,就是大数据思维。大数据思维主要有以下几个方面的特性。

全局大局思维。大数据研究的对象是所有样本,而非抽样数据,关注样本中的主流,而非个别,这要求应用人员必须有全局和大局思维。

开放包融思维。数据分享、信息公开的分享资源的同时,也在释放善意,取得互信,在数据交换的基础上产生合作,这将打破传统封闭与垄断,形成开放、共享、合作思维。大数据不仅关注数据的因果关系,更多的是相关性,提高数据采集频度,而放宽了数据的精确度,容错率提高,用概率看待问题,使人们的包融思维得以强化。

优质服务思维。互联网通过免费的基本服务换来了大量客户数据的积累,从经济学角度来看,所有的免费都是不可持续的。这要求大数据使用者有能力依靠挖掘数据,改变价值的生成基础和价值链条的新价值,用更优质服务、提升变现能力来实现可持续发展。

学习趋势思维。研究数据相关性,使人们更容易提前发现事物的规律,预测事物进展的趋势,大数据就是通过成功的预测而引起广泛关注的。

成本控制思维。原来的社会治理模式中,用增量来配置社会资源,机构和人员不断扩大,成本不断加大。大数据让社会资源的存量得以精确配置,高效实用,避免忙闲不均,社会治理由劳动密集型到技术动态调度转变。

创造性思维。创造性思维是大数据思维方式的特性之一,通过对数据的重组、扩展和再利用,突破原有的框架,开拓新领,确立新决策,发现隐藏在表面之下的数据价值,数据也创造性地成了可重复使用的“再生性”资源。

大数据应用

历来的变革都是由生产工具推动思维方式转变开始的,通过新思维重新重组社会、国家的战略、结构、文化和各种策略,成为推动历史前进的动力。作为最新的生产工具,大数据将成为治国的利器,可以实现治国理念、工具、目标的现代化,为推进国家治理体系和治理能力现代化提供强劲的动力。另一方面,大数据产生于各行各业,大数据引导的变革也必将影响到各行各业。未来,大数据将成为社会基础设电商是最早利用大数据进行精准营销的行业。依据客户消费习惯提前为客户备货,并利用便利店作为货物中转点,在客户下单15分钟内将货物送上门,提高客户体验;利用交易数据和现金流数据,为生态圈内的商户提供基于现金流的小额贷款;也可以将此数据提供给银行,同银行合作为中小企业提供信贷支持。由于电商的数据较为集中,数据量足够大,数据种类较多,未来电商数据应用将会有更多的想象空间,包括预测流行趋势,消费趋势、地域消费特点、客户消费习惯、各种消费行为的相关度、消费热点、影响消费的重要因素等。依托大数据分析,电商的消费报告将有利于品牌公司产品设计,生产企业的库存管理和计划生产,物流企业的资源配制,生产资料提供方产能安排等等,有利于精细化社会化大生产,有利于精细化社会的出现。施的一部分,跟公路、自来水、电一样,成为人们生活不可或缺的一部分。如果说云计算主要提供了强大的后台运算能力,对大众来说,看不见摸不着;那么大数据却是和人们的生活紧密相关的,应用可见可感可知。

二. 大数据的应用场景

大数据的分析将会更加精确帮助农牧民做好自然灾害的预防工作。农民可以采集农产品生长信息、病虫害信息,实现农业的精细化管理。大数据同时也会帮助农民依据消费者消费习惯决定来增加哪些品种的种植,减少哪些品种农作物的生产,提高单位种植面积的产值,避免产能过剩,同时有助于快速销售农产品,完成资金回流。牧民可以通过大数据分析来安排放牧范围,有效利用牧场。渔民可以利用大数据安排休渔期、定位捕鱼范围等

三.对于这次暑期实训的认识

通过本次大数据认知和实习,让我了解到了当今大数据的发展趋势,以及培养人才的方案。短短几年时间里,大数据就已经实现了从概念到落地,直接带动了相关企业的井喷式发展。目前的中国大数据技术在越来越多的行业中得到应用,随之而来的就是人才缺口问题的凸显。在大数据领域对数据科学家的需求相对有限,对大数据底层设计,数据清洗,数据挖掘级大数据安全等相关人才的需求急剧上升,占据了人才需求的80%以上。而这也让我们这些大数据专业的人挑战重重,但在这挑战的背后对于我们来说隐藏着巨大机遇。而我们所要做的,就是在何种情况下,我们更需要学好专业知识,利用好专业知识,找到相对口的工作岗位,在大数据专业方面继续努力,为以后的工作积累经验。
————————————————
版权声明:本文为CSDN博主「皈心」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_46146329/article/details/107429374

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
学 术 论 坛 / A c a d e m i c F o r u m 94 孙建军 ( 陕西省标准化研究院 , 陕西 西安 710048) 摘要:本文从大数据的概念和核心思想入手,思考大数据的内涵和孕育的思想,试图从大数据的视角形成相应的认知与思 维方式。 关键词:大数据认知;智能化;大数据预测 1 大数据概念与特点 "大数据"(Big data)以多元形式,源自多领域、 多行业、不同层次,甚至不同的应用。大数据是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优化能 力的海量、高增长率和多样化的信息资产。应用大数据的 意义在于通过挖掘和加工实现数据的增值服务。 想要认知大数据,可从以下几个方面从总体上有一个 概括性的了解。一是我们必须清楚它的来源。大数据的来 源众多,可以源自多领域、多行业、不同层次,甚至不同 的应用。如大数据可以来自互联网、政府、企业和个人等 方面。二是大数据构成。结构化、半结构化和非结构化数 据构成了大数据集,非结构化数据成为组成大数据的主要 部分。三是数据量庞大。是海量数据,从 TB 级别,跃升到 PB 级别。四是增长快。由于大数据的来源众多,其数据量 的增长要比传统快的多。五是关联性复杂。庞大的数据集 中隐藏着非常复杂的关联,数据之间彼此的相关性呈现出 多种关系。 六是应用价值高。 从大数据的基本特征可以看出, 需要发现并解析大数据的价值所在,并洞悉大数据的发展 趋势。在当以今云计算为代表的技术创新下,这些原本看 起来很难收集和应用的数据开始容易被利用起来,预示着 大数据会逐步为人类创造更多的价值。以上是我们对大数 据的一个基本认知。 从大数据概念中可以看出大数据具有的几个基本特征, 业界将其归纳为 4 个"V"——Volume(大量),海量数 据。Velocity(高速),处理速度快,一般要在秒级时间 范围内给出处理结果,这个速度要求是大数据处理和传统 的数据处理最大的区别。Variety(多样),数据来源复杂, 数据类型繁多。如文档、视频、图片、地理位置信息等等。 Veracity(真实性),大数据是客观的。数据分析的结果 具有客观和真实性。 技术是大数据处理和价值体现的手段, 分别从云计算、 分布式处理技术、存储技术和感知技术的应用来说明大数 据从采集、处理、存储到形成结果的整个过程。实践是大 数据的最终价值的应用。 2 大数据核心思想 有许多学科都经历了信息爆炸的时代,譬如天文学, 随之应运而生的就是"大数据"这个概念。如今,这个概 念几乎应用到了所有人类致力于发展的领域中。大数据标 志着人类在寻求量化和认识世界的道路上前进了一大步, 过去难于计量、存储、分析和共享的很多事物都被数据化 了,拥有大量且不一定非常精确的数据为我们观察和理解 世界打开了一扇新的大门,所以说以数据为核心的时代出 现了。我们基本上可以从三个维度来理解大数据及其价值。 首先从横向来看反映的是事物之间的联系,多重的关联向 我们展现出了以前不曾有过且丰富多彩的数据世界,事物 之间的相关和联系能够更加客观真实地增强我们的认知, 使我们对事物认识更加的深刻和全面,再看纵向呈现的是 事物之间的变化及其趋势。动态的变化使我们能够通过数 据观察到事物的状态,其变化则能进一步把握发展的方向, 和预测未来变化的趋势。那么从局部和整体看,由于大数 据具体而全面,能够客观地反映事物的整体,使我们能够 全面掌握事物的真实状态,以便客观地观察和把握事物的 现状。因此,由此可见大数据与传统数据不同,并为我们 展现出很高的应用价值。 从体量巨大、结构繁多的海量数据中,快速获得有价 值信息的能力,就是大数据技术。云计算在存储和计算上 都体现了数据为核心的理念。云计算为大数据提供了有力 的工具和途径,大数据为云计算提供了可有效利用的数据 资源。 2.1 客观反映整体 以前在传统数据时代,由于没有全数据,只能用局部 数据来反映整体,力求用最少的样本数据得到最为精准的 结论。 事实上从真实和客观性上来讲, 这是具有一定偏差的。 如我们常用统计学方法,通过抽样和一定的概率运算得到 的结果来预估全局和整体,并不完全客观与真实。如今, 随着云计算的发展,我们的数据处理能力有了很大的提高, 技术不再成为限制。我们的数据总量相比以前有了很大程 度的增加,而且这个总量在未来会越来越多,即样本会无 限接近于总体 . 用全数据代替随机样本,是为了能将影响结 果的所有可能性都都涵盖进去,为的不是精准,而是全面、 客观和真实。 但是,统计抽样我们还会做,在某些特定的领域,我 们依然会使用样本分析法,譬如,市场监管系统每年都要 进行质量抽检。具体做法是针对不同的产品类型制定不同 的抽检方案。在方案中要明确抽检的方法,批次和数量等, 检验完成后,依据检验的结果来判定整体产品

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值