原创 一种面向搜索引擎的网页分块、切片的原理,实现和演示收藏

一种面向搜索引擎的网页分块、切片的原理,实现和演示



最近看到 2005 年的 全国搜索引擎和网上信息挖掘学术研讨会 上 华南木棉信息检索的队长 欧健文 的 华南木棉信息检索 的ppt。很有启发。

于是自己也根据自己的理解准备做一个实现。
实现前提假设:
    1、网页分块切分的基本单位是html中的table , div 等标签(目前版本只支持:table ,div 标签)。
    2、网页分块切片识别依赖于相似url的对比。比如:我们认为一下两个url的网页html文本结构相似:
        http://news.soufun.com/2005-11-26/580107.htm
        http://news.soufun.com/2005-11-26/580175.htm
       而下面两个url的网页结构不相似:
        http://news.soufun.com/subject/weekly051121/index.html
        http://news.soufun.com/2005-11-26/580175.htm

用途:
    1、根据分析网页结构区分网页是 主题型网页 还是 目录型网页;
    2、根据分析网页结构 找出 网页的 主题内容,相关内容和噪音内容;

实现的3个阶段:
    1、对网页结构进行合理切片;
    2、比较相似网页的切片结构;
    3、分析切片数据,得出结论。
演示地址:
       http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp



发表于 @ 2005年11月27日 09:14:00|评论(loading...)

新一篇: my new online notepad with google module interface | 旧一篇: 关于 python 中使用 lambda 表达式的问题

用户操作
[即时聊天] [发私信] [加为好友]
田春峰
订阅我的博客
XML聚合  FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
田春峰的公告

天天多么乐

田春峰的IT网志
田春峰


seo 客户端工具下载
Alexa Top 100 索引量研究报告
-->

accesine's Rapleaf Score

关于我的信息链接

Donews Blog

Subscribe with Bloglines

洪洞县杜戍村
文章分类
收藏
.net
C++
os
sp
工作流
开发工具
名人连接
数据库相关
搜索引擎
网络开发
我的好朋友
移动开发
组件
存档
软件项目交易
Csdn Blog version 3.1a
Copyright © 田春峰