用户操作
[即时聊天] [发私信] [加为好友]
田春峰ID:accesine960
748559次访问,排名47好友15人,关注者142
请用一段话来描述您自己,如性格、爱好、生活态度、工作情况、受教育状况等。让大家更了解你,不要超过1000个汉字
accesine960的文章
原创 245 篇
翻译 10 篇
转载 33 篇
评论 545 篇
田春峰的公告

天天多么乐

田春峰

accesine's Rapleaf Score

关于我的信息链接

Donews Blog

Subscribe with Bloglines

my qq number
最近评论
123:scions of fate
scions of fate gold
http://www.sap99.com/
,SAP免费资料下载
SAP99资料多多

http://www.sap99.com

有很多的学习资料,推荐一下,
秒大刀:这有个免费的中文分词系统,貌似还不错,而且官方提供免费更新
http://dev.8jiao.com/index.php/Wb_cws_index
Kevinsh:认同jiaomeng的观点, 错误 != 误差. 个人认为误差是测量值和实际值之间的差别, 和机械加工中偏差有点像, 应该在可接受的范围内. 错误的值完全不同于实际值,比如一个球的颜色是实际值正红色(0xFF0000), 0xFF0001认为是误差,而0x00FF00就是错误了. Bloom Filter中的错误概率比较低时, 比如<0.001%, 认为是可接受的, 错误忽略. 还有个……
chan ming:B to B SERACHENGINE PARTNER WANTED

搜索引擎技术总监 兼職亦可 賣軟件亦可 按件計外包 亦可

提供 “大事业、大学校、大家庭”的平台为每一位员工造就了人生与事业的舞台,让员工与企业共同发展。

共圖大業亦可 本公司有殺着 本公司高超生意頭腦 必能為相方帶來成功感, ……
文章分类
收藏
相册
Computer Pic
domolo
life
lucene
MsnRobot DingDang
searchengine
search-engine
seo
个人信息
其他
.net
C++
os
sp
工作流
开发工具
名人连接
数据库相关
搜索引擎
网络开发
我的好朋友
移动开发
组件
存档
软件项目交易
订阅我的博客
XML聚合  FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
订阅到BlogLines
订阅到Yahoo
订阅到GouGou
订阅到飞鸽
订阅到Rojo
订阅到newsgator
订阅到netvibes

原创 网页切片算法的若干问题收藏

新一篇: 从百度服务看: 百度更懂中国 | 旧一篇: 正式发布blog 博客备份服务

    这是我研究网页切片算法的一个汇总想法。
    之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示
,随着工作的深入,逐渐碰到以下问题:

   
网页切片的粒度问题:
           网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。


   网页切片的网页对象:
          互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,
车东
对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。
   网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些标准?

    网页内容区最大范围识别:
           从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的网页设计规律,一般有2种容纳内容区的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。


    如果处理分页的内容型网页:
           现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了分页处理,这部分需要设别出来。

    无意间看到了:VIPS:基于视觉的Web页面分页算法 ,从理论上证明了这种方法的可行性。可是实现起来有很多障碍,正如这位所说的:

    
     

蜗牛 发表于2006-02-21 12:40 AM  IP: 220.184.129.*
我那天用浮动的<div>用绝对位置定位代替<table>定位,并且在客户端的JavaScript中动态排列。客户端的对象用脚本动态生成插入。

弄死他。看他怎么分析。

这样的算法太依赖于具体实现了,很难有好的解决办法。

况且,现在依赖客户端脚本展现动态表现力慢慢开始流行,这个算法很难适应未来的潮流。

就拿最简单的,我有一个类似于OutLook工具条的页面风格,都是脚本生成的,我看他怎么分析!

视觉分析只能落脚到视觉上,只能对页面的静态画面作分析才能得到正确的条块分割,分割条块是容易的简单算法就能做到,但是要把这些内容归结到分割到的条块是难的。

好的办法只有一个,模拟鼠标击键,击键处的对象返回响应,这在IE能够实现的。这样才能取得分割好条块后的对象归属。

我怎么想都觉得我的简单算法都要比文中的算法强多了。

视觉依靠画面分割条块,很简单,对空白进行膨胀-缩小算法,这样留白就能逐渐清晰出来,文字就模糊了。然后作模糊处理,然后用一个亮度阈值把图片转换成二值图,然后作一个矢量化处理,留下线条。归结到90度和0度上去,得到一个条块分割的矢量图。

然后,每一块中按照密度用鼠标点击模拟获得对象!这样就可以完成了条块归纳了。

干吗要分析HTML呢?情况多得很,根本分析不过来。

    我目前的进展是:可以识别 导航区、链接区、页脚区。
    对内容区的分析是个难点,鉴于我自己的需要,只要找到最大的内容区就可以了。

    这段时间对算法的一个体会就是,算法就是解决特定问题的方法。教科书上的算法大都是最一般性,常用性的方法的说明。
    套句俗话,能解决实际问题的方法就是好方法。但能把我们解决的问题用数学模型表达出来仍是一个不断提高算法水平的基本要求。

    感兴趣的可以看看: primary number hitched  42 就是生命、宇宙和zeta函数的答案?

   




发表于 @ 2006年04月01日 21:03:00|评论(loading...)|编辑

新一篇: 从百度服务看: 百度更懂中国 | 旧一篇: 正式发布blog 博客备份服务

评论

#tingya 发表于2006-04-02 19:48:00  IP: 202.117.15.*
恩,目前我们主要将VIPS用于手持设备访问互联网的算法中,因此你所说的问题我们目前还没有用到。但是如果真将VIPS算法用到搜索引擎中,必须解决下面几个问题:
1、切片类型的确定。目前可以将切片分为图片切片,链接切片,文本切片,表单切片等种类。所有的Web页面也可以分为两种:导航型页面以及文本型页面。具体的判断可以通过其内部的切片的类型来确定。当然,不同的Web页面对于搜索引擎而言,所要挖掘的内容自然不一样。
2、由于VIPS算法没有提供源代码,不过我目前用C#基本实现了其中的功能,语义的分割要比VIPS本身合理一些,但是对于动态生成的DIV等内容还存在一些问题,也许仅仅靠分析HTML确实无法解决。
3、对于切片类型的确定,分割后的切片是导航区,页脚区。这些基本都很容易确定。一种做法就是将各个切片用类似PangRank的算法进行处理,不过比较复杂,如果不是需要特别精确,可以通过位置坐标确定。这种做法在Web噪音消除的一些论文中经常使用!不过精确度不是特别的准确。

#clzzclzz 发表于2006-04-03 09:09:00  IP: 221.201.67.*
我那天用浮动的<div>用绝对位置定位代替<table>定位,并且在客户端的JavaScript中动态排列。客户端的对象用脚本动态生成插入。

弄死他。看他怎么分析。


无论用什么最终都是解释给浏览器看的,用JS最后也是解析成HTML,所以可以基于firefox来做,用firefox先解析一下,firefox形成的最后结果应该是可用的
#ABC 发表于2006-04-05 13:22:00  IP: 222.94.6.*
只要你的代码展现出来的是个页面而不是一个类似应用程序的东西,也就是以表达为主而不是以交互为主的页面.不管你用DIV还是JS什么的,都是能分析的.
用图像处理的方法更难.
#widowss 发表于2006-04-05 21:20:00  IP: 202.119.31.*
基本认可abc
页面一般是板结构化的东西,图像完全没有结构,处理起来更加复杂。
#wwweducn 发表于2006-04-07 10:16:00  IP: 221.2.225.*
复杂,有点难。
#点击这里看免费电影 发表于2006-04-07 15:57:00  IP: 222.244.87.*
顶,支持
#abc 发表于2006-07-23 16:02:00  IP: 58.24.231.*
这和是否执行javascript有什么关系吗?中间那短评论看起来很幼稚
#蛙蛙 发表于2008-04-12 23:47:54  IP: 221.218.152.*
蛙蛙推荐:蛙蛙牌正文提取算法
摘要:
上次和大家讨论了一些正文提取的细节问题,这次我把一些关键问题解决了,给大家上一下代码,并做了演示,能提取不少网站的正文了,当然在功能和代码组织上还有不少改进的地方。
http://www.cnblogs.com/onlytiancai/archive/2008/04/12/getmaincontent.html
发表评论  


登录
Csdn Blog version 3.1a
Copyright © 田春峰