讨论网页文章通用抓取方法

     这一段时间一直在做一个网页内容抓取的东西(新闻抓取),到现在基本完成了,由于网站个数不是太多,选用的是一个站点一个模板的方式进行内容的提取。可是模板的方式呢,实现地区比较简单,但是为每个网站添加模板是个很痛苦的事。


      最近几天一直在想怎么用通用的方式提取网页信息,我现在有个想法是,由于html中<p></p>标签是用来分段的,那么我把一个网页下载下来然后用正则表达式的取<p></p>标签中内容。如果是单个的<p></p>标签那么判断里面是不是有标点(文章里应该都有标点的吧?),如果的有的话那么就是文章正文。如果<p></p>标签是连续多个的话一般来说直接就可以确定它是文章了,这样就可以把文章提取出来。(刚发现还要网友评论要考虑,晕!怎么除去这类不需要的信息啊!)

 

      还有一个体会是,网页中除了正文中的超连接外,其他的都是可以去除的。

 

 

     怎么取出一个网页的内容呢?各位有什么想法吗?

 

       如果有人熟悉网页分块提取的话,欢迎给个思路怎么做。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值