田春峰ID:accesine960
740789次访问,排名47好友15人,关注者89
请用一段话来描述您自己,如性格、爱好、生活态度、工作情况、受教育状况等。让大家更了解你,不要超过1000个汉字
accesine960的文章
原创 245 篇
翻译 10 篇
转载 33 篇
评论 545 篇
田春峰的公告

天天多么乐

田春峰

accesine's Rapleaf Score

关于我的信息链接

Donews Blog

Subscribe with Bloglines

my qq number
最近评论
秒大刀:这有个免费的中文分词系统,貌似还不错,而且官方提供免费更新
http://dev.8jiao.com/index.php/Wb_cws_index
Kevinsh:认同jiaomeng的观点, 错误 != 误差. 个人认为误差是测量值和实际值之间的差别, 和机械加工中偏差有点像, 应该在可接受的范围内. 错误的值完全不同于实际值,比如一个球的颜色是实际值正红色(0xFF0000), 0xFF0001认为是误差,而0x00FF00就是错误了. Bloom Filter中的错误概率比较低时, 比如<0.001%, 认为是可接受的, 错误忽略. 还有个……
chan ming:B to B SERACHENGINE PARTNER WANTED

搜索引擎技术总监 兼職亦可 賣軟件亦可 按件計外包 亦可

提供 “大事业、大学校、大家庭”的平台为每一位员工造就了人生与事业的舞台,让员工与企业共同发展。

共圖大業亦可 本公司有殺着 本公司高超生意頭腦 必能為相方帶來成功感, ……
irplay:C#失去的不仅仅是CPU和内存,更多的失去了客户.
MS的商业策略可以抹杀.net程序员的成功...足以致命.
eastseek:同感, 同感,

加上一条: lucene要结合好DB query很困难。

自己写个cpp的索引和查询器,工作量也不大,
(只要写过CPP超过1年的工程师都顺利拿下)。

尤其是LUCENE的排序,TCL。

文章分类
收藏
相册
Computer Pic
domolo
life
lucene
MsnRobot DingDang
searchengine
search-engine
seo
个人信息
其他
.net
C++
os
sp
工作流
开发工具
名人连接
数据库相关
搜索引擎
网络开发
我的好朋友
移动开发
组件
存档
软件项目交易
订阅我的博客
XML聚合  FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
订阅到BlogLines
订阅到Yahoo
订阅到GouGou
订阅到飞鸽
订阅到Rojo
订阅到newsgator
订阅到netvibes

原创 一种面向搜索引擎的网页分块、切片的原理,实现和演示收藏

新一篇: my new online notepad with google module interface | 旧一篇: 关于 python 中使用 lambda 表达式的问题

一种面向搜索引擎的网页分块、切片的原理,实现和演示



最近看到 2005 年的 全国搜索引擎和网上信息挖掘学术研讨会 上 华南木棉信息检索的队长 欧健文 的 华南木棉信息检索 的ppt。很有启发。

于是自己也根据自己的理解准备做一个实现。
实现前提假设:
    1、网页分块切分的基本单位是html中的table , div 等标签(目前版本只支持:table ,div 标签)。
    2、网页分块切片识别依赖于相似url的对比。比如:我们认为一下两个url的网页html文本结构相似:
        http://news.soufun.com/2005-11-26/580107.htm
        http://news.soufun.com/2005-11-26/580175.htm
       而下面两个url的网页结构不相似:
        http://news.soufun.com/subject/weekly051121/index.html
        http://news.soufun.com/2005-11-26/580175.htm

用途:
    1、根据分析网页结构区分网页是 主题型网页 还是 目录型网页;
    2、根据分析网页结构 找出 网页的 主题内容,相关内容和噪音内容;

实现的3个阶段:
    1、对网页结构进行合理切片;
    2、比较相似网页的切片结构;
    3、分析切片数据,得出结论。
演示地址:
       http://www.domolo.com:8090/domoloWeb/html-page-slice.jsp



发表于 @ 2005年11月27日 09:14:00|评论(loading...)|编辑

新一篇: my new online notepad with google module interface | 旧一篇: 关于 python 中使用 lambda 表达式的问题

评论

#田春峰 发表于2006-04-01 21:03:00  IP: 211.100.21.*
TrackBack来自《网页切片算法的若干问题》

这是我研究网页切片算法的一个汇总想法。
之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示 ,随着工作的深入,逐渐碰到以下问题:
网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。
#tingya 发表于2006-01-10 12:37:00  IP: 202.117.15.*
给出的演示地址好像不能用阿?
#amenda2000 发表于2007-01-15 00:07:21  IP:
是啊是啊,不能用啊,作者呢作者呢
#dongle2001 发表于2007-01-15 15:27:42  IP: 61.236.5.*
老大,有没有继续研究呀?
能不能把你现在的研究成果发布出来,参考参考呀。
#dongle2001 发表于2007-01-15 15:27:43  IP: 61.236.5.*
老大,有没有继续研究呀?
能不能把你现在的研究成果发布出来,参考参考呀。
#you_laner 发表于2007-08-03 10:42:05  IP: 58.211.156.*
感觉这种算法有些局限性,通用性不是很强,网页类型换了,就需要重新定义模板
#lenovocn 发表于2007-10-30 17:07:04  IP: 202.108.112.*
仅仅根据这种相似性规则能判断出“导航区,链接区,内容,页脚区和广告区”等不同的区域吗?
希望能看看你的演示
发表评论  


登录
Csdn Blog version 3.1a
Copyright © 田春峰