大数据学习札记

大数据技术及应用教程

1.1 数据与信息的关系

  1. 数据是一种未经加工的原始的资料。数据是客观对象的表示,二信息则是数据内涵的意义,是数据的内容和解释。

  2. 信息与数据的关系是:信息与数据是不可分离的,数据是信息的表达,信息是数据的内涵。

1.2 数据的分类

信息可以划分为两大类

  • 一类信息是能够用数据或统一的结构表示的,结构化数据;
  • 一类是无法用数字或统一的结构表示的,如文本、图像、声音、王爷等。
  • 结构化数据是非结构化数据的一种特例,子集。

结构化数据

  • 结构化信息是指信息经过分析后錒分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,使用和维护通过数据库进行管理,并由一定的操作规范。
  • 我们通常接触的,包括生产、业务、交易、客户信息等方面的记录都是属于结构化信息的。
  • 结构化数据简单来说就是存储在结构化数据库里的数据,可以用二维表结构来逻辑表达实现的数据。如ERP

非结构化数据

  • 不方便用数据库二位逻辑表来表现的数据。
  • 所谓非结构化数据库,是指数据库的变长记录由若干不可重复和可重复的字段组成。结构不清晰。
  • 用它不仅可以处理结构化数据,而且更适合处理费结构化数据。
  • 简单的说,非结构化数据库就是字段可变的数据库。

半结构化数据

  • 所谓半结构化数据,如HTML文档就是半结构。
  • 它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

各类数据的区别

  • 结构化数据:行数据,存储在数据库里,可以用二维表来逻辑表达实现的数据
  • 非结构化数据: 包括所有格式的办公文档,文本、图片、XML音频等,列结构
  • 半结构化数据:自描述的,数据结构和内容混在一起

互联网信息分类

  1. 结构化信息, 电子商务信息,信息的性质和量值出现的位置固定;
  2. 半结构化信息, 专业网站的细分频道,其标题和正文的语法相当规范,关键词的范围相当局限
  3. 非结构化的信息: 如blog和bbs,所有内容都是不可预知的。

中国企业数据现状

  • 目前,中国企业500强的每日数据生成量近一半多于1GB

信息

信息的定义

  • “信息”information
  • 它是对客观世界中各种十五的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。
    信息技术::是指信息的搜集、识别、提取、变换、存储、传递、利用等技术

信息资源</

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值