基于大数据挖掘----浅谈大数据与大数据挖掘

基于大数据挖掘----浅谈大数据与大数据挖掘

一、大数据技术

1.1大数据的定义

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从某种意义上来说,大数据是为了更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代构架和技术。
简而言之,大数据就是数据分析的前沿技术,这种技术能从各种各样类型的数据中,快速获得有价值的信息。

1.2大数据的特点

可将大数据的特点总结为:规模性(volume)、多样性(variety)、高速型(velocity)和价值性(value)。
1.规模性:大数据容量巨大,从TB级别,跃升至PB级别,数据容量越来越大已经成为不争的事实。现在一般家庭用的计算机硬盘容量都以TB为单位了,而在各电子商务、游戏、邮箱等,数据容量更是达到PB、EB级别。此外,在用户需求的刺激下,大数据的增长速度也十分惊人。据IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。
2.多样性:数据类型极多,大数据根据终端显示的不同,可分为文档型、多媒体型、图片型等等。这些类型都与我们的网络活动息息相关,为我们的网上生活提供了丰富多彩的形式。数据多样性的增加主要是由于新型多结构数据,包括网络日志、社交媒体、互联网搜索、手机通话记录及各式传感器网络等数据类型造成的。
3.高速性:高速指的是数据被创建和移动的速度,即处理海量数据的速度。因此大数据技术离不开云计算的发展,人们通过云计算可从各种类型的数据中快速获得高价值的信息。在高速网络时代,通过高速电脑处理器和服务器,创建实时数据流已成为流行趋势。根据相关调查预测,到2020年全球将拥有220亿部互联网连接设备,这对大数据的处理速度将有着极高的要求。
4.价值性:人们利用大数据并对其进行正确、准确的分析,将会带来很高的价值回报,但是又因其具有价值密度低的特点,大数据存在不规则和模糊不清的特性,因此很难使用传统的分析软件进行分析。目前,企业面临的挑战是处理并从各种类型的复杂数据中挖掘出价值。

1.3大数据的发展过程

大数据的发展和企业信息化的发展密不可分。在上世纪80年代,企业的各类业务、财务数据都是通过账簿记录,查阅和统计都十分不方便,可靠性也不高。从90年代末开始,金融业、电信业、大型零售等行业企业率先将核心交易数据电子化,2000年以后随着IT技术的发展,越来越多的企业将信息化纳入议程,设计、制造、财务等管理逐步数据电子化,这些数据被企业视为最宝贵的资产,随之而起的数据库技术和网络安全技术也渐渐完善。2010年以后,各式各样的数据,包括客户的浏览数据、反馈数据等在一些企业中也都开始记录并逐步进行建模和分析,基于数据挖掘和分析的预测技术也逐步开始出现。
从过去到现在,数据的价值都在一点一滴的显现,十年前的大数据在如今看来根本不算很大;而同样的,今天的大数据在若干年后也将不再被认为是大数据。数据的容量、处理速度、多样性、复杂度等在今天来看无法想象的事情,若干年之后都会被颠覆。但是唯一不变的,是对数据的思考和分析的方法,以及利用数据来产生附加价值的出发点。

1.4大数据的意义和价值

大数据技术具有很高的战略意义,但大数据技术不限于存储海量的数据信息,而在于对这些海量的数据信息进行专业化的处理,如果将大数据比作一种产业,那么大数据产业的关键在于对数据的加工,通过加工数据实现数据的增值。
大数据不仅在于“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
对大数据进行分析能揭示隐藏其中的信息。从企业角度来说,其价值大致体现在这些方面:
1.对于那些为大量消费者提供产品或服务的企业来说,可以利用大数据进行精准营销,例如产品推荐等。许多企业都在收集用户社交媒体数据、浏览器日志、文本分析等数据,来全方位地了解他们的客户。
2.优化业务流程,利用从社交媒体数据、网络搜索趋势以及天气预报挖掘出的预测信息,零售商可以优化其库存。其中应用最广的业务流程是供应链或配送路线优化。
3.大数据可以改善每个人的生活,我们利用可穿戴设备(例如智能手表或智能手链)生成的数据,来调整生活作息、睡眠模式等。
4.大数据可以提高医疗和研发效率,例如在几分钟内解码整个DNA,这让我们可以更加便捷地去寻找新的治疗方法,同时更好地理解和预测疾病模式。
5.大数据也能大幅度优化机器和设备性能,大数据分析还可以让机器和设备变得更加智能和自主化。
正如阿里巴巴创办人马云所提到,未来的时代将不是 IT 时代,而是 DT的时代,DT就是 Data Technology,即数据科技。这显示出大数据在未来的发展中具有极其重要的作用,未来将是大数据的时代。

二、数据挖掘

2.1数据挖掘的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程并且从大量数据中寻找其规律的技术,它是统计学、数据库技术和人工智能技术的综合。
数据挖掘作为信息获取的一门重要技术,得到了广泛的研究。数据挖掘从大量的数据中挖掘出有用的信息,提供给决策者做决策支持,有着广阔的应用前景。

2.2数据挖掘的前提–数据采集

大数据技术第一步就是采集数据。数据采集的多样性、完整性、准确性,决定了数据挖掘的成果以及后期预测的可靠性。
在大数据时代,数据采集有以下三个特点:
1.数据采集以自动化手段为主,要尽量摆脱人工录入的方式。
2.采集内容以全量采集为主,要摆脱对数据进行采样的方式。
3.采集方式多样化、内容丰富化,摆脱以往只采集基本数据的方式。
从采集数据的类型上看,不仅要涵盖基础的结构化数据,还要逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音频类型的用户意见和反馈数据,网络爬虫获取的互联网数据,以及未来越来越多有潜在意义的各类数据。
移动互联网的兴起让移动设备的数据采集技术有了迅速发展,目前使用最多的为Android或IOS的采集 SDK,这种技术能帮助统计 APP 的基础数据,包括用户数、活跃情况、流失比例、使用时长等;用户的位置、安装列表、通讯情况等通过授权也可以采集。

2.3数据挖掘的步骤与方法

数据挖掘的一般步骤为数据集选取、数据预处理、数据转换、数据建模、结果分析改进等。通常程序为:问题分析;提取、清洗与校验数据;创建与调试模型;数据挖掘模型维护。
在数据挖掘的过程中,需要挖掘的数据类型种类繁多, 可能是有结构的数据,如组织成表结构的数据;也可能是无结构的数据, 如文本数据;还可能是半结构化的数据,如Web页面数据;甚至是图像或视频等多媒体数据。由于挖掘的数据类型多样,因此其涉及的技术方法很多。
根据挖掘任务可分为五种:分类与回归、聚类分析、关联分析、时间序列分析和偏差检测。在数据库挖掘中,C4.5(决策树算法),遗传算法等,其中决策树方法与神经网络方法是其关键方法。
而挖掘方法又可以分为:机器学习方法、统计方法、神经网络方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。
在现在信息爆炸的时代,数据挖掘的信息源中的数据都是海量的,并且以指数级增长,传统的集中式串行数据挖掘方法不再是一种适当的信息获取方式。因此扩展数据挖掘算法处理大规模数据的能力,并提高运行速度和执行效率,已经成为数据挖掘发展过程中一个必须解决的问题。

2.4数据挖掘的功能

在大数据时代下,基于大数据的数据挖掘有着无比重要的意义,人们通过对大量数据的专业分析,可以对现有的商业模式、企业决策提供数据支持。目前,几乎所有的知名企业中的管理建议都是以数据分析结论作为依据而提出的,在分析和解决问题时也开始倾向于用数据说话,不掌握大量数据时无法提出合理的、科学的、可行的建议的。此外,当大量的数据量积累到一定程度时,再对这些数据进行分析处理后,人们就可以从这些数据中找到感兴趣的有效的信息。
因此数据挖掘可以预测未来趋势及行为,做出前瞻性、基于大数据发展趋势的决策。总的来讲主要有以下五类功能:自动预测趋势和行为;关联分析,找出数据库中隐藏的关联网;聚类,增强了人们对客观现实的认识;概念描述,对某类对象的内涵进行描述,并概括这类对象的有关特征;偏差检测,寻找观测结果与参照值之间有意义的差别。

2.5数据挖掘的应用

随着社会信息化程度的持续提高,数据挖掘技术也渐渐发展变成了一门独立的学科。数据挖掘技术为了满足用户在庞大的数据库中筛选有用的数据需要,经过分类技术对数据实施分类挖掘。在各行各业中,均存在着数据挖掘的身影。
(1)金融。金融事务需要收集和处理大量的数据,通过对这些数据进行分析,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,也可观察金融市场的变化趋势。
(2)医疗保健。例如在2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终Google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。这对医疗保健品的运输调度以及需求规划起了很重要的作用。
(3)市场业。市场业应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。例如农夫山泉利用大数据解决了怎样摆放水堆更能促进销售?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?物流运输调度等问题。
(4)制造业。制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
在云计算平台Hadoop基础上,中国科学院计算技术研究所开发的并行分布式数据挖掘平台——PDMiner。PDMiner 实现了各种并行数据挖掘算法。实验结果表明,并行分布式数据挖掘平台PDMiner中实现的并行算法,能够处理大规模数据集,达到太字节级;实现的并行算法可以在商用机器构建的并行平台上稳定运行,可以有效地应用到实际海量数据挖掘中。

三、基于大数据的数据挖掘

概括地说,大数据挖掘包括基于内容的大数据挖掘与基于结构的大数据挖掘。大数据分析是指对规模巨大的数据进行分析。大数据作为时下火热的 IT 行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士谈论的焦点。

3.1基于内容的大数据挖掘

基于内容的大数据挖掘包括网络搜索技术与实体关联分析研究。
社会媒体的出现使得网络搜索研究的热点转移到了排序学习算法,专注于提高检索质量。排序学习算法以损失函数为优化目标,将文档表示为特征向量,寻找在搜索领域中常用的评价标准下的最好的排序函数。目前现有的模型在处理用户需求的多样性、重要性和相关性等不同的目标,在排序方面仍有不足。
命名实体是具体或者抽象但具有特定意义的实体。从大数据中挖掘其蕴含的内在知识,需要研究对命名实体以及命名实体关系的数据挖掘。

3.2基于结构的大数据挖掘

社会网络是以用户为节点,用户间的关系为连线而构建的网络,它既是用户间社会关系的反映,也是用户之间进行信息交互的载体。
在社会网络中,个体因自身各种因素进而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征,它的存在对于大数据的高效搜索、网络演化、信息扩散等具有重要意义。

四、大数据挖掘的发展趋势

未来的时代必然是大数据的时代,信息时代逐渐变为数据时代,一切将与数据密不可分。

4.1未来大数据的发展趋势

数据的资源化,大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。
1.商业智能
企业决策正在经历的转变将延续到未来。处理大数据的目标使效率越来越高,成本不断减少,从而造就了基于大数据的商业智能,对中小企业甚至初创公司来说更为重要。这一趋势将延续到未来及以后,处理大数据的成本将继续降低。
2.数据分析将包含可视化模型
数据可视化和数据发现将成为一股重要趋势。
数据发现的范畴已经扩大,不仅包括对数据分析和关系的理解,还包括呈现数据的方式。作为一种把数据变成可视化的方法,可视化模型越来越受欢迎。日益改善和演变的可视化模型已经成为从大数据中获取信息的必要组成部分。
人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择。
3.机器学习
机器学习是计算机的训练过程,现在被企业用于各种各样的商业行为,比如实时广告、模式识别、欺诈识别和医疗。但在大数据时代,机器学习将变得更聪明、更快速、更有效。

4.2未来数据挖掘的发展趋势

在许多领域,数据挖掘都是热点问题。用数据挖掘技术解决问题的类型、解决数据挖掘的数据准备工作及数据挖掘的理论基础都日趋成熟与完善。在大数据时代下,数据挖掘的发展趋势可以体现在以下5个层面。
1、多媒体数据挖掘
大数据时代下,视、音频、图像等都属于多媒体数据,随着时代的发展,海量的数据结构变得复杂化和动态化。无人机和无人车的实际应用、智慧医疗项目的全面发展都会要求对多媒体数据进行快速处理,为了得到更理想的效果,得到的效果变得最优化,需要开发和设计数据挖掘的新智能算法。
2、网络与分布式环境下的KDD问题
随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。
3、数据挖掘算法的改进和可视化
可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。如今,学术研究主要集中在精度和效率之间设定适当的临界值和对数据挖掘的结果进行可视化两个方面。针对数据挖掘算法中的新贵——RNN、CNN、DNN、Capsule等一系列深度学习算法的研究,将成为引领大数据研究方法的风向标。
4、数据挖掘和隐私保护
在解决实际问题时,难免会涉及隐私的数据,例如在研究信用卡和用户之间的关系时,数据中难免会有用户的个人信息;在研究宫颈癌(危险因素)与人的年龄、怀孕次数、性伴侣数等关系时,会有部分隐私信息不便透漏外界。在进行数据挖掘过程中,不泄露用户的个人隐私问题,对数据进行脱敏处理,将成为人们研究数据挖掘的另一个重要方面。
5、数据挖掘与数据库系统和Web数据库系统的集成
数据库系统和Web数据库已经成为信息处理系统的主流。数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合。

五、结论

本文主要介绍了大数据技术的定义、特点、发展过程、总结了其意义和价值;还介绍了数据挖掘技术定义、步骤与方法、以及数据挖掘技术的功能和应用,归纳总结了在大数据时代下大数据和数据挖掘技术未来的发展趋势。
在这个大数据时代,大数据不仅让我们不再期待精确性,也让我们无法实现精确性。我们用数据驱动的大数据的相关关系分析法,取代了传统的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。
在各个领域,时刻都会产生海量数据,由于社会存在过多的不确定性因素,导致处理的数据类型越来越繁杂,传统的处理方法已经不再使用,但是数据挖掘技术则为解决大数据问题开辟了一个新途径。未来的时代是DT时代,数据挖掘技术会面对更加严峻的挑战,利用数据挖掘的相关算法,处理实际问题和分析数据的能力将会更加显著。
在不久的将来,我们会在大数据的指导下探索世界,不再受限于各种假想。我们的研究始于数据,也因为数据我们将会发现以前不曾发现的联系。

  • 17
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值