VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法]
http://www.vipcn.com/chengxukaifa/qitayuyan/212673.html
这篇论文很好,对于如何确定正文区域,排除广告具有很好的指导作用。
但是,对于如何合并、如何查找正文区域,还要另外思考。
同时,是否有必要处理css和style,对于效率有什么影响,也要考虑。
其实,对此我有一些经验,但是出于保密,无法提供。
可以参考我后面写的一篇博文
http://www.vipcn.com/chengxukaifa/qitayuyan/212673.html
这篇论文很好,对于如何确定正文区域,排除广告具有很好的指导作用。
但是,对于如何合并、如何查找正文区域,还要另外思考。
同时,是否有必要处理css和style,对于效率有什么影响,也要考虑。
其实,对此我有一些经验,但是出于保密,无法提供。
可以参考我后面写的一篇博文