讨论网页文章通用抓取方法

最新推荐文章于 2022-01-14 09:54:49 发布

liu208286

最新推荐文章于 2022-01-14 09:54:49 发布

阅读量163

点赞数 1

分类专栏： Java 文章标签：正则表达式 HTML

Java 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这一段时间一直在做一个网页内容抓取的东西（新闻抓取），到现在基本完成了，由于网站个数不是太多，选用的是一个站点一个模板的方式进行内容的提取。可是模板的方式呢，实现地区比较简单，但是为每个网站添加模板是个很痛苦的事。

最近几天一直在想怎么用通用的方式提取网页信息，我现在有个想法是，由于html中<p></p>标签是用来分段的，那么我把一个网页下载下来然后用正则表达式的取<p></p>标签中内容。如果是单个的<p></p>标签那么判断里面是不是有标点（文章里应该都有标点的吧？），如果的有的话那么就是文章正文。如果<p></p>标签是连续多个的话一般来说直接就可以确定它是文章了，这样就可以把文章提取出来。(刚发现还要网友评论要考虑，晕！怎么除去这类不需要的信息啊！)

还有一个体会是，网页中除了正文中的超连接外，其他的都是可以去除的。

怎么取出一个网页的内容呢？各位有什么想法吗？

如果有人熟悉网页分块提取的话，欢迎给个思路怎么做。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄17年

0
原创

2
点赞

0
收藏

0
粉丝

关注

私信

热门文章

分类专栏

javascript 2篇
Java 2篇

最新评论

为什么要有构造函数呢？
weixin_47216197: 构造器是一个特殊的方法，这个特殊的方法用于创建实例时执行初始化。构造器是创建对象的重要途径（即使使用工厂模式，反射等方法创建对象，其实质依然是依赖于构造器），因此Java类必须包含一个或者一个以上的构造器[code=java] 比如在主方法中创建对象是类名对象名=new 类名();这里的类名()就是代表类中含有一个构造器，且没有任何参数，但是如果类名（），（）里面有参数，这就会传递到构造器中。所以，构造器是必须的。（刚学Java，是个小白，回答是自己的客观的回答） [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。