这一段时间一直在做一个网页内容抓取的东西(新闻抓取),到现在基本完成了,由于网站个数不是太多,选用的是一个站点一个模板的方式进行内容的提取。可是模板的方式呢,实现地区比较简单,但是为每个网站添加模板是个很痛苦的事。
最近几天一直在想怎么用通用的方式提取网页信息,我现在有个想法是,由于html中<p></p>标签是用来分段的,那么我把一个网页下载下来然后用正则表达式的取<p></p>标签中内容。如果是单个的<p></p>标签那么判断里面是不是有标点(文章里应该都有标点的吧?),如果的有的话那么就是文章正文。如果<p></p>标签是连续多个的话一般来说直接就可以确定它是文章了,这样就可以把文章提取出来。(刚发现还要网友评论要考虑,晕!怎么除去这类不需要的信息啊!)
还有一个体会是,网页中除了正文中的超连接外,其他的都是可以去除的。
怎么取出一个网页的内容呢?各位有什么想法吗?
如果有人熟悉网页分块提取的话,欢迎给个思路怎么做。