网络信息组织
1. 网络信息环境
1.1 网络发展的三个阶段
Web1.0 ==> 文档网络,单向浏览和下载
Web2.0 ==> 以人为中心、双重角色(信息的生产者和消费者)
Web3.0 ==> 语义网
2. 语义网信息组织
2.1 万维网与语义网
万维网是由资源与链接组成的。
语义网,即一个由大量及其可理解的数据所构成的一个分布式的万维网,不仅能处理和显示信息,还拥有人的思考能力,即对网络信息的理解能力。
2.2 语义网技术架构
第一层:URL(唯一资源标识符)与UNICODE(唯一字符编码)
第二层:XML(可扩展置标语言)语法层
第三层:RDF(资源描述框架)数据交换层
第四层:RDFS模式层
第五层:本体与规则层
第六层:统一逻辑层提供公理与推理规则
第七层:证明层
第八层:信任层
第九层:用户界面与应用层
2.3 本体
本体是可共享领域内明确定义的知识,具有严谨的概念界定与语义关系梳理,是目前最复杂的知识组织工具。
本体的组成部分
(1)概念 (2)实例 (3)关系 (4)函数 (5)公理
本体的作用
(1)概念描述 (2)语义揭示 (3)一致性 (4)推理支持
2.4 关联数据
关联数据是基于RDF模型,采用URI命名网络对象,通过HTTP协议进行网络数据发布和资源关联检索发现的机制。
2.5 网站信息架构
信息架构由美国理查德·沃尔曼提出,指组织和设计信息空间结构的一门艺术与科学。
3. Web2.0信息组织方法
3.1 标签法
标签的实质是一种原生态的元数据,通过使用自然语言的关键词或词组对资源的主题内容进行描述,如分众分类法(Folksonomy)
1、标签的功能
(1)组织,方法简单,在网络环境下可随时随地组织资源
(2)共享,通过标签建立资源联系,可检索自己和他人的标签资源
(3)发现,通过标签聚合发现兴趣资源和相关用户群体
2、标签的局限性
(1)随意性和多样性
(2)自然语言本身的模糊性使标签产生歧义
3.2 WiKi
维基是典型的用户参与的自组织体系
3.3 Mashup
Mashup起源于音乐混搭,是随Web2.0兴起的一种资源聚合技术,以网络开放API数据调用和RSS供稿为基础,集成融汇分散各处的外部数据源,对外提供新的网络服务。
4. 网络信息组织的方式
4.1 文件方式
计算机内的文件管理程序根据用户给出的文件名自动完成数据传输操作,实现“按文件名进行存取”。
4.2 数据库方式
数据库方式是对大量的规范化数据进行管理的技术,在大量信息的有效存储和快速存取方面具有重要作用。
4.3 主题树方式
主题树方式是指将信息资源按照某种事先确定的概念体系分门别类地逐层加以阻止,用户先通过浏览的方式层层遍历,直到找到所需要的信息线索,再通过信息线索连接到相应的网络信息资源。
4.4 搜索引擎方式
搜索引擎是指采用自动化技术对万维网站点资源和其他网络资源进行采集、标引和检索的一类检索系统机制,是目前网络信息资源的组织和检索的主流方式和工具。
5. Web2.0信息自组织方式
5.1 Web2.0信息组织的关键技术
(1)标签技术,标签是用来描述信息内容的分类标识,一般一个标签就是一个自然语言词汇。
(2)内容聚合技术,内容聚合(RSS)是某一站点用来和其他站点之间共享信息内容的一种简易方式。
(3)大众标注,指用户自己使用标签对自建或他人创建的网络信息进行标注,以供自己或他人进行检索的一种网络信息组织方法。
6. 网络信息重组与知识挖掘
1、信息重组的含义
信息重组是根据对源信息所含知识内容对其进行分析解构的基础上,运用一定的科学方法将源信息或解构所得信素进行重新组合,从而得到新的信息产品,实现信息增值的过程。
2、信息重组应遵循的原则
(1)针对性
(2)全面系统综合
(3)时效性
(4)客观真实
(5)易于接受
6.1 网络知识挖掘
万维网挖掘是指从大量的万维网文档集合中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。包括内容挖掘、结构挖掘、用户使用记录挖掘。
1、万维网内容挖掘,是从万维网文档内容或其描述中抽取知识的过程。
2、万维网结构挖掘,主要是从万维网组织结构和链接关系中推导信息、知识。包括文档间超链接挖掘和内部结构挖掘。
3、万维网用户使用记录挖掘,包括一般的用户访问模式追踪和个性化的使用记录追踪。
信息组织知识点全系列索引
第一章 绪论
第二章 信息组织的基本原理
第三章 信息组织分类法
第四章 信息组织主题法
第五章 信息组织集成法
第六章 信息内容分析与标引
第七章 信息组织中的自然语言应用
第八章 网络信息组织
第九章 数字图书馆信息组织
第十章 信息组织的历史发展和未来趋向