大数据相关

转载 2017年07月17日 19:50:04

大数据相关

  1. 结构化与非结构化处理手段
  2. 什么是大数据
  3. 数据仓库
#注意 以下内容转自百度百科

结构化

  • 结构化数据,简单来所就是数据库
  • 基本包括高速存储应用需求、数据备份需求、数据共享需求、以及数据容灾需求

    概述

    结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进彳存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。

    作用

    结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。

    标记方式

    1、使用HTML代码标记
    HTML代码标记的方式主要有3种:微数据、微格式和RDFa。但对于一些外贸站站来说,标记是以微数据为主,少许时候也会用到微格式,视不用的页面类型而定吧。
    2、使用微数据标记 使用微数据标记的话,有两种代码格式:http://data-vocabulary.org/
    http://schema.org/。由于data-vocabulary标记只支持谷歌搜索,而schema同时支持谷歌、雅虎、Bing等搜索,因而我们不妨称data-vocabulary为旧版标记,schema为新版标记。

非结构化

  • 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
  • 包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

    概述

    包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

    作用

    计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

    采集

    非结构化数据的采集是信息进一步处理的基础。现在有许多开源库己经实现了从非结构化文档中采集关键信息的功能,但针对不同格式的文档,所用的开源库不尽相同。

    查询

    随着计算机、互联网和数字媒体等的进一步普及,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,面对如此巨大的信息海洋,特别是非结构化数据信息,如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。传统关系数据库主要面向事务处理和数据分析应用领域,擅长解决结构化数据管理问题,在管理非结构化数据方面存在某些先天不足之处,尤其在处理海量非结构化信息时更是面临巨大挑战。为了应对非结构化数据管理的挑战,出现了各种非结构化数据管理系统,例如基于传统关系数据库系统扩展的非结构化数据管理系统,基于NoSQL的非结构化数据管理系统等。

    存储

    据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。据报道指出:平均只有1%-5%的数据是结构化的数据。如今,这种迅猛增长的从不使用的数据在企业里消耗着复杂而昂贵的一级存储的存储容量。如何更好的保留那些在全球范围内具有潜在价值的不同类型的文件,而不是因为处理它们却干扰日常的工作?云存储是越来越多的IT公司正在使用的存储技术。

大数据

概念

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

特征

  • 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
  • 种类(Variety):数据类型的多样性;
  • 速度(Velocity):指获得数据的速度;
  • 可变性(Variability):妨碍了处理和有效地管理数据的过程。
  • 真实性(Veracity):数据的质量
  • 复杂性(Complexity):数据量巨大,来源多渠道
  • 价值(value):合理运用大数据,以低成本创造高价值

数据仓库

概述

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

发展

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

特点

  1. 数据仓库是面向主题的
  2. 数据仓库是集成的
  3. 数据仓库是不可更新的
  4. 数据仓库是随时间而变化的
  5. 汇总的
  6. 大容量。
  7. 非规范化的。
  8. 元数据。
  9. 数据源。

大数据(一)大数据的相关理论

大数据(一)大数据的相关理论 1.特征定义 2.价值探讨 3.大数据现在和未来 4.大数据隐私...
  • qq_41455420
  • qq_41455420
  • 2018-02-07 13:01:39
  • 387

大数据相关书籍

  • 2017年12月21日 14:13
  • 38.48MB
  • 下载

大数据相关的实用工具推荐

大数据指的是海量数据的分析处理,可能是EB级的数量处理,我们之前也提到过大数据拥有4V特性,Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),对于大数据的分析...
  • u012798135
  • u012798135
  • 2014-07-23 12:19:29
  • 626

大数据相关组件概述

大数据相关组件概述1、大数据开发和运维      开发: java、scala   hive/spark      运维: shell+CDH平台2、大数据组件:        数据抽取收集: SQO...
  • pengzonglu7292
  • pengzonglu7292
  • 2017-12-19 20:23:07
  • 81

大数据相关认证考试

Cloudera 有四种证可以考: CCP: Data Scientist Hadoop Developer CCDH Hadoop Admin CCAH HBase Specialist CCS...
  • guoqiangxiong
  • guoqiangxiong
  • 2016-06-14 15:17:41
  • 495

大数据处理项目相关

mapReduce部分* MapReduce MAP :映射 reduce :归纳* 简单来说,一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作...
  • shujun19941226
  • shujun19941226
  • 2016-09-27 17:29:52
  • 1076

大数据技术词汇表

Anomaly:见异常值词条。   Apache Software Foundation(ASF):专门为支持开源软件项目而办的一个非盈利性组织。  ARPU(Average revenue pe...
  • youzhouliu
  • youzhouliu
  • 2016-06-20 12:57:15
  • 9111

大数据基础知识

一、什么是大数据         一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数...
  • Troy1214
  • Troy1214
  • 2017-08-07 21:06:45
  • 1400

一点一点重学统计学(五)——回归与相关分析(小谈大数据)

博主这个小菜谈谈大数据吧,真正大数据分析并不是起源于人类基因组计划,而是很久之前的一位领航员画的大海路线图及相关信息(天气、风向、洋流等等),所以向他致敬!或许他都不知道这叫大数据分析。。。 人类基因...
  • skenoy
  • skenoy
  • 2013-09-11 18:53:05
  • 943

大数据学习,涉及的知识点

大数据技术都包括哪些,如何学习大数据技术。首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。 Java:只要了解一些基础即可,做大数据不需要很深的Ja...
  • qq_16239439
  • qq_16239439
  • 2017-09-25 19:33:19
  • 772
收藏助手
不良信息举报
您举报文章:大数据相关
举报原因:
原因补充:

(最多只允许输入30个字)