2017.7.17日志-大数据

1.结构化数据和非结构化数据

结构化数据是指驻留在记录或文件中的固定字段中的任何数据。这包括关系数据库和电子表格中包含的数据。可用二维表结构表示

​结构化数据首先取决于创建数据模型 - 将被记录的业务数据类型的模型以及如何存储,处理和访问。这包括定义将存储哪些数据字段以及如何存储数据:数据类型(数字,货币,字母,名称,日期,地址)以及对数据输入的任何限制(字符数;限于某些术语作为先生,女士或博士; M或F)。

结构化数据具有易于输入,存储,查询和分析的优点。有一次,由于存储,存储和处理的高成本和性能限制,使用结构化数据的关系数据库和电子表格是有效管理数据的唯一方法。任何不能适应紧密组织结构的东西都必须存放在文件柜内的纸上。结构化数据通常使用结构化查询语言(SQL)(一种用于管理和查询关系数据库管理系统中的数据)的编程语言进行管理。最初由IBM在20世纪70年代初开发,之后由Relational Software,Inc.(现在的Oracle公司)开发。

结构化数据是严格基于纸张的非结构化系统的巨大改进,但生活并不总是适合整齐的小盒子。因此,结构化数据总是需要通过纸张或微缩胶片存储来补充。随着技术绩效的不断提高,价格下降,有可能将计算系统带入非结构化和半结构化数据。

​非结构化和半结构化数据非结构化数据是所有那些不能如此容易地分类并适合整齐的盒子的东西:照片和图形图像,视频,流式仪器数据,网页,PDF文件,PowerPoint演示文稿,电子邮件,博客条目,维基和文字处理文档。

两者之间的交叉是半结构化数据。它是一种结构化数据,但缺乏严格的数据模型结构。使用半结构化数据,标签或其他类型的标记用于标识数据中的某些元素,但数据不具有刚性结构。例如,文字处理软件现在可以包括显示作者名称和创建日期的元数据,大部分文档只是非结构化文本。电子邮件将发件人,收件人,日期,时间和其他固定字段添加到电子邮件内容和任何附件的非结构化数据中。可以使用创建者,日期,位置和关键字等关键字来标记照片或其他图形,从而可以组织和定位图形。XML和其他标记语言通常用于管理半结构化数据。


2.大数据是什么,有什么特点?

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P1000T)、E100万个T)或Z10亿个T

二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

三、Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

四、Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

五、Veracity:数据的准确性和可信赖度,即数据的质量。



3.数据仓库

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。


4.cap理论

● 一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)
● 可用性(A):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。(对数据更新具备高可用性)
● 分区容错性(P):以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间做出选择。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值