html标记的索引,基于HTML标记分析及中文切词的网页索引研究与实现

摘要:

本文深入研究了HTML标记对网页内容的修饰作用,并对大量网页的结构进行了分析,通过对比各种中文文档的索引和加权策略以及中文切词,英文Stemming操作等算法,设计和实现了基于HTML标记的网页分析和加权策略与算法,完善了基于词典的切词算法. 为了合理地实现对网页进行有效表示和索引,本系统采取了以词为单位的全文索引的策略,本策略借鉴了传统文本检索中tf*idf的索引词加权公式,并结合HTML标记分析及词在网页中出现的频率进行索引加权,在对此问题的解决中包括HTML标记分析,中文切词,英文Stemming操作等算法,采用了基于词典的正向最大匹配法,反向最大匹配法及三字交集切词歧义消解法相结合的算法对中文文本进行切词,取得了比较满意的效果. 整个系统在实现时采用了面向对象的程序设计技术,数据库技术,JDBC和Java多线程技术等.通过测试,对中文词汇的切分达到了较高的准确度,并且随着训练语料的增加可以不断完善切词词典,进一步提高切词的准确度.以中文切词,英文Stemming操作和HTML标记分析加权为基础的索引策略能够较好的表示网页的内容,同时为基于向量空间模型的相似度计算奠定了基础.

展开

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值