java 新闻正则采集源代码_老蜗牛写采集：获取数据（正则篇）

最新推荐文章于 2021-03-02 03:55:19 发布

蔡佳人

最新推荐文章于 2021-03-02 03:55:19 发布

阅读量91

点赞数

文章标签： java 新闻正则采集源代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29710393/article/details/114596298

版权

这篇博客介绍了如何使用正则表达式在Java中抓取网页数据，以搜狐新闻的社会栏目为例，展示了如何获取新闻标题和链接。博主推荐了一款名为RegExBuilder的正则测试工具，帮助开发者调试和编写正则表达式。

摘要由CSDN通过智能技术生成

致歉

首先感谢博友对这个系列的支持，很多加群的人都问我啥时候更新，我一直回答尽快，结果一拖就一年了。因为工作和生活占据我大量的时间，所以只能跟大伙说声抱歉。

使用正则获取数据

前两篇讲到如何采集html数据，那采集回来肯定要截取我们有用的部分，举个例子。我们要采集搜狐新闻的社会栏目，地址如下：

http://news.sohu.com/shehuixinwen.shtml

我们首先获取到新闻列表，看上两章介绍到使用xNet获取到搜狐新闻的社会栏目的html源码，当然你可以使用httprequest或者第三方组件。代码如下：

var html = string.Empty;

using (var request = new xNet.HttpRequest())

{

html = request.Get("http://news.sohu.com/shehuixinwen.shtml").ToString();

}

得到html值：

var pvinsight_page_ancestors = '143746642;143746651';

社会新闻-搜狐新闻

.....

if(_wratingId !=null){

document.write('');

document.write('var vjAcc="'+_wratingId+'";');

document.write('var wrUrl="http://sohu.

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java 新闻正则采集源代码_老蜗牛写采集：获取数据（正则篇）

致歉首先感谢博友对这个系列的支持，很多加群的人都问我啥时候更新，我一直回答尽快，结果一拖就一年了。因为工作和生活占据我大量的时间，所以只能跟大伙说声抱歉。使用正则获取数据前两篇讲到如何采集html数据，那采集回来肯定要截取我们有用的部分，举个例子。我们要采集搜狐新闻的社会栏目，地址如下：http://news.sohu.com/shehuixinwen.shtml我们首先获取到新闻列表，看上两章介...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。