java 新闻 正则采集源代码_老蜗牛写采集:获取数据(正则篇)

这篇博客介绍了如何使用正则表达式在Java中抓取网页数据,以搜狐新闻的社会栏目为例,展示了如何获取新闻标题和链接。博主推荐了一款名为RegExBuilder的正则测试工具,帮助开发者调试和编写正则表达式。
摘要由CSDN通过智能技术生成

致歉

首先感谢博友对这个系列的支持,很多加群的人都问我啥时候更新,我一直回答尽快,结果一拖就一年了。因为工作和生活占据我大量的时间,所以只能跟大伙说声抱歉。

使用正则获取数据

前两篇讲到如何采集html数据,那采集回来肯定要截取我们有用的部分,举个例子。我们要采集搜狐新闻的社会栏目,地址如下:

http://news.sohu.com/shehuixinwen.shtml

我们首先获取到新闻列表,看上两章介绍到使用xNet获取到搜狐新闻的社会栏目的html源码,当然你可以使用httprequest或者第三方组件。代码如下:

var html = string.Empty;

using (var request = new xNet.HttpRequest())

{

html = request.Get("http://news.sohu.com/shehuixinwen.shtml").ToString();

}

得到html值:

var pvinsight_page_ancestors = '143746642;143746651';

社会新闻-搜狐新闻

.....

if(_wratingId !=null){

document.write('');

document.write('var vjAcc="'+_wratingId+'";');

document.write('var wrUrl="http://sohu.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值