信息解析系统复习笔记,week1

前言:
实际应用中的数据类型(非编程语言中的数据类型)大体上可以这样划分:
关系数据库 –》xml –》 自由文本,搜索引擎
从左到右,是从结构化到非结构化的过程

一般来说,实际应用中,涉及到的数据操作就是:数据表示,查询公式,和匹配。

本课程要学习的是什么?
就是要管理那些非结构化的,不好被数据库有效处理的数据。例如,XML和普通文本

学习的目标是:
理解在信息解析过程中不同信息的本质(结构化,半结构化和非结构化)以及它们的关联
理解XML技术在信息解析中的作用
掌握创建和操作XML文档的能力
理解文本数据库开发的设计和多种访问方法。
(因此这不是一门编程课程,而是一门学习系统思想的帮助你编程的课程)
推荐阅读书籍
XML: Language Mechanics & Applications,
Professional XML 2nd Ed,
XML Schema

第一周,基础:XML简介(复习本科内容)

学习目标
能够理解:
    1. XML技术和它的角色
    2. XML文档的不同组建
    3. 创建格式良好的XML文档

      什么是XML
      XML是可扩展标记语言的所写,是一种自定义的格式化文档。其他的标记语言还有HTML和SGML,其中后者是XML的前身。在xml中,标记用来格斯话文档,或者表示在一定程度上表示语义,更多内容参考www.w3c.org. 在HTML中,标签是用来定义表现层次的,而xml中标签是用来定义有意数据的结构。

      为什么使用XML呢?
      因为分布式程序需要共享诸如普通文本和能够被定义良好结构的有效数据。另外,如果数据要被发送到多个设备中去的时候,哪么分离数据和其表现形式是非常重要的。

      XML应用的例子有:Web Services中,例如UDDI,SOAP,WSDL等等;电子商务中有微软的BizTalk等;程序开发环境中,有.net配置文件等等。

      XML文档例子:
      < bookshop >
      < book >
      < title >  Harry Potter and the
      Sorcerer’s Stone
      </ title >
      < author >
      < initials > J.K </ initials >
      < surname >  Rowling </ surname >
      </ author >
      < price  value =“$16.95”></price>
      </book >

      </ bookshop >


      XML相关技术有:
      • DTD/Schema (数据定义)
      • XSL(XSLT和XSL-FO)(数据表示)
      • XPath(定位节点)
      • Xlink,Xpointer(链接)
      • DOM和SAX(XML操作和解析API)

      XML解析器:
      用来读取和操作XML文档,它把XMl文档当成普通文本输入,然后解析成一定的数据格式,一般来说是树,然后存放在内存中。例如web浏览器等等其实本质上都是ige数据解析器,典型的解析器除了ie,还有msxml。

      XML文档的基本组件:
      • 元素
      • 属性
      • 字符和实体引用
      • 字符数据(CDATA)
      • 处理指令
      • 注释

      元素
      构成XML标记块的基本。可以包含:
      • 文本
      • 其他元素(子元素)
      • 属性
      • 字符数据
      • 其他标记(例如注释)
      由开始和结束标签分割。元素可以为空,结束标签不能像在html中那样被省略。每个标签必须包含一个有效的元素类型名称。
      元素名称,大小写敏感,名称末尾空格合法但会被忽略。
      空元素,元素可以为空,没有任何内容。空元素可以带有属性。

      属性
      与元素本身相关的信息,可以理解为修饰元素的形容词。
      元素呢是由语义内容定义的,而属性仅仅是元素的特征而已。

      字符引用
      用来现实某些输入设备并不支持的字符。
      格式: &#NNNNN; 或者 &#xXXXX;
      其中N代表十进制数,X代表16进制数

      实体引用

      用来定义和用作一个标记字符的表示,例如<,>,或者表示一个字符串&IR =information retrieval,引用中还有xml的预定义实体。

      字符数据
      为避免文本包含某些保留字符而定义的,主要用来表示数据
      <![CDATA[…]]>

      预处理指令
      允许文档包含应用程序所能使用的指令。目的是标示预处理指令所指向的应用程序或者对象

      注释
      语法: <!—comment text  -->,不能嵌套在元素中。

      XML文档结构
      结构良好的,自说明的文档。包含序言、文档本体、收尾部分。序言包含xml声明,文档类型声明。文档本体包含根元素,有效的元素。结尾很少用到。
      • 0
        点赞
      • 0
        收藏
        觉得还不错? 一键收藏
      • 0
        评论
      好的,我可以给你提供一些数据库系统概论的期末复习笔记,帮助你进行复习。 1. 数据库系统的组成部分: - 数据库:存储有组织的数据的集合 - 数据库管理系统(DBMS):管理数据库的软件 - 数据库应用程序:通过DBMS与数据库进行交互的软件 2. 数据库系统的基本概念: - 实体:可以在数据库中存储的对象或事物 - 属性:实体的特征或属性,如姓名、年龄等 - 关系:实体之间的联系,如学生和课程之间的联系 - 模式:数据库中所有数据的逻辑结构 - 视图:特定用户或应用程序所看到的数据库子集 3. 数据库设计过程: - 需求分析:确定数据库的需求和目标 - 概念设计:创建数据库的概念模型 - 逻辑设计:将概念模型转换为逻辑模型 - 物理设计:将逻辑模型转换为物理模型,包括数据类型、索引等 4. SQL语言: - 数据定义语言(DDL):用于定义数据库对象,如表、索引、触发器等 - 数据操作语言(DML):用于插入、更新、删除数据 - 数据查询语言(DQL):用于查询数据 5. 数据库管理系统的类型: - 层次型数据库管理系统(HDBMS):数据以树形结构组织,不适用于复杂的数据结构 - 网状型数据库管理系统(NDBMS):数据以网状结构组织,可以处理更复杂的数据结构 - 关系型数据库管理系统(RDBMS):数据以表格形式组织,最常用的类型 - NoSQL数据库管理系统:非关系型数据库,适用于大数据和分布式系统 希望这些笔记能够对你的复习有所帮助!

      “相关推荐”对你有帮助么?

      • 非常没帮助
      • 没帮助
      • 一般
      • 有帮助
      • 非常有帮助
      提交
      评论
      添加红包

      请填写红包祝福语或标题

      红包个数最小为10个

      红包金额最低5元

      当前余额3.43前往充值 >
      需支付:10.00
      成就一亿技术人!
      领取后你会自动成为博主和红包主的粉丝 规则
      hope_wisdom
      发出的红包
      实付
      使用余额支付
      点击重新获取
      扫码支付
      钱包余额 0

      抵扣说明:

      1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
      2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

      余额充值