![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
XML 智能信息检索技术 读书笔记
文章平均质量分 84
JennyReborn
stay hungry , stay foolish .
展开
-
第一章 XML技术
1.1 标记语言的发展1986:标准通用置标语言(Standard Generalized Markup Language,SGML) 1989:超文本置标语言(HyperText Markup Language,HTML) 1998:可扩展标记语言(eXtended Markup Language,XML) 1.2 可扩展标记语言XMLXML与HTML不同:1)XML标签不是预定义的,可根据需要自原创 2017-02-18 11:43:06 · 256 阅读 · 0 评论 -
第二章 XML信息检索基础
2.1 信息检索系统数据检索系统可分为四个部分: 1、数据预处理: 从多种格式的数据中提取正文和其他所需的信息。 2、索引生成: 索引是索引项的集合,一个索引项是由一个节点的关键码和该节点的存储位置组成的关联。 目前主流的方法是以词为单位构造倒排索引表。 3、查询处理 用户输入的查询条件可以有多种形原创 2017-02-19 19:51:33 · 1377 阅读 · 1 评论 -
第3章 XML语义检索
3.1 引言 研究XML信息检索系统一方面应当保留简单的查询表达式以满足大多数用户对XML搜索引擎的使用要求;另一方面,XML文档不同于结构严格的文档,不同的XML文档相差很多,例如,DBLP数据的XML文档是以数据为中心的,而莎士比亚剧的XML文档则是以文本为中心的,XML信息检索系统必须考虑XML文档的嵌套结构以及由标签限定的数据值的语义、文档的多样性、结构的复杂性,以及返回结果的力度。原创 2017-02-20 21:07:11 · 451 阅读 · 0 评论 -
第4章 XML 聚类研究
4.1 概述 将自动聚类技术用于Web信息检索结果的类别划分,将检索结果依据内容划分为相应的类别,具有相似特征的文档放在同一组,以便于用户缩小查找范围。 4.2 聚类分析基础 所谓聚类就是将数据点划分为若干个类或簇,使得同一类中的数据点之间具有较高的相似度,而不同类中的数据点之间具有较高的相异度。 1)基于划分的方法:k均值算法和k中心点 2)基于层次:按数据分层组织为若干聚类簇,并形成原创 2017-04-10 22:15:22 · 1121 阅读 · 0 评论