数据库领域的技术

数据库领域的技术

分布式数据库

定义

distributed data base

定义为一群分布在计算机网络上,逻辑上相互连接的数据库。分布式数据库 是数据库技术与网络技术结合的产物,在数据库领域已形成一个分支。

分布式数据库的研究始于20世纪70年代末

分布式数据库的模式图

在这里插入图片描述

DDBS的基本特点

  • 物理分布性:数据不是存储在一个场地上,而是存储在计算机网络的多个场地上。
  • 逻辑整体性:数据物理分布在各个场地,但逻辑上是一个整体,它们被所有用户(全局用户)共享,并由一个DBMS统一管理。
  • 场地自治性:各场地上的数据由本地的DBMS管理,具有自治处理能力,完成本场地的应用(局部应用)。
  • 场地之间协作性:各场地虽然具有高度的自治性,但是又相互协作构成一个整体。

数据挖掘技术

数据挖掘技术指的是在从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。

应用场景

在大数据时代下,数据挖掘作为最常用的数据分析手段得到了各个领域的认可,目前国内外学者主要研究数据挖掘中的分类、优化、识别、预测等技术在众多领域中的应用。

分类

伴随着时代的进步和科技的飞速发展,作为人口大国,中国在健康医疗、老龄化社会等方面产生的公共数据呈几何级数进行增长,而基于大数据的挖掘数据所附有的价值问题急需解决。健康医疗数据的结构、规模、范围和复杂度等都在不断扩大,传统的计算方法并不能完全满足分析医疗数据,数据挖掘技术则可以根据医疗数据的一些特点:模式的多态性、信息的缺失性(数据中由于涉及个人隐私问题而导致的缺失值)、时序性、冗余性对健康医疗数据进行分类,从而可以为医生或病人提供准确的辅助决策。

同时,中国正加速进入老龄化社会,而互联网是改善老龄化社会的重要媒介,大数据是评估老龄化社会重要的技术手段。屈芳等提出了“互联网+大数据”模式的养老实现途径,整个养老服务体系是建立在多元异构信息汇聚和数据融合挖掘之上,“互联网+大数据”的养老体系是将多种信息通信技术进行融合,在这里,包括通信技术、数据挖掘技术及人工智能技术等。

优化

道路的交通状况与人们的出行关系密切,随着城市的快速发展、生活水平的改善,机动车的规模也逐渐扩大,带来了交通拥堵等问题。数据挖掘技术可以有效解决交通道路和物流网络之间的优化问题,Pan等提出了一种数据挖掘预测模型,该模型用于“实时预测”短期的交通状况,给陷入交通拥堵的驾驶人员带来极大的帮助。

随着科技的发展,网上购物越来越流行,同时带来了物流运输拥堵及瘫痪等问题。京东——中国最大的在线交易平台之一,在人工智能的优化时代,使用无人机探测道路状况反馈的数据,采用数据挖掘技术精准计算物流网络运输所需要的参数,可以轻松高效地缓解物流运输瘫痪的问题,从而产生了中国第一个机器人快递员,将第一个商品送达至中国人民大学。而随着日后交通网络长度、复杂性等方面的增加,实现无人驾驶的自动化策略难度也大幅增加,只有通过数据挖掘技术才可以快速计算出结果,从而获得从复杂道路信息中产生的高效价值。

识别

自从20世纪50年代数字图像出现以来,数字图像成为人类社会中必不可少的“数据”。在计算机应用中,数据挖掘在图像识别的应用越来越普遍,有代表性应用为人脸识别和指纹识别。人脸识别通过对获得的信息库进行数据挖掘,进一步分析和处理可靠的、潜在的数据,充分准备资料的分析工作和未来的开发工作。Wright等阐述了基于稀疏表示的鲁棒人脸识别,并给出了详细的理论分析与实践总结。

沙亚清等针对目前的电子报税系统中利用用户名和口令的不安全性,提出了一种基于智能卡和指纹识别的身份认证方案,并结合指纹技术,构建新的口令参数,从而使得安全性明显提高。随着数据挖掘技术的不断发展,大数据识别人脸和指纹的精确度会越来越高。

预测

预测问题是各领域中研究最多的问题,其目的是通过历史数据预测出未来的数据值或发展趋势。大部分历史数据是时间序列数据,即指按照时间的顺序排列,得到了一系列观测值。由于信息技术的不断进步,时间序列的数据也日益剧增,如气象预报、石油勘探、金融等。时间序列数据挖掘的最终目标就是通过分析时间序列的历史数据,预测未来一段时间的变化趋势及其带来的影响。

大数据技术

什么是大数据

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

什么是大数据技术

一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征

特点

  • 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
  • 种类(Variety):数据类型的多样性;
  • 速度(Velocity):指获得数据的速度;
  • 可变性(Variability):妨碍了处理和有效地管理数据的过程
  • 真实性(Veracity):数据的质量。
  • 复杂性(Complexity):数据量巨大,来源多渠道。
  • 价值(value):合理运用大数据,以低成本创造高价值。

典型的应用场景

  • 洛杉矶警察局加利福尼亚大学合作利用大数据预测犯罪的发生。
  • Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
  • 统计学家内特·西尔弗(Nate Silver)利用大数据预测2012美国选举结果。
  • 麻省理工学院利用手机定位数据和交通数据建立城市规划。
  • 梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。 [8]
    999)利用手机定位数据和交通数据建立城市规划。
  • 梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。 [8]
  • 医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。 [9]
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值