VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法](介绍)

VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法]

http://www.vipcn.com/chengxukaifa/qitayuyan/212673.html

 

这篇论文很好,对于如何确定正文区域,排除广告具有很好的指导作用。

但是,对于如何合并、如何查找正文区域,还要另外思考。

同时,是否有必要处理css和style,对于效率有什么影响,也要考虑。

其实,对此我有一些经验,但是出于保密,无法提供。

 

可以参考我后面写的一篇博文

 

基于Web开发模式的信息抽取

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值