正则-匹配超链接地址及内容

今天做文章抓取程序的完善开发,碰到了以下问题
   “<a href=aaa.html>A页</a><a href=bbb.html>B页</b>” 利用正则从中分别取出 aaa.html ,A页 ,bbb.html,B页。
   自己写了俩正则 算是都能实现,但是是先匹配出所有的href对应的Html,再匹配出类似"A页"标题这段。 但是感觉很麻烦,从网上一搜,果然看到有位大侠写的正则很简炼,贴出记下,膜拜之
ContractedBlock.gif ExpandedBlockStart.gif Code
1None.gif MatchCollection mc = Regex.Matches(htmlstring, @"<a\s+href=(?<url>.+?)>(?<content>.+?)</a>");
2None.gif            foreach (Match m in mc)
3ExpandedBlockStart.gifContractedBlock.gif            dot.gif{
4InBlock.gif                url = m.Groups["url"].Value;
5InBlock.gif                
6InBlock.gif                content = m.Groups["content"].Value;
7ExpandedBlockEnd.gif            }

其中htmlstring 为输入代码

转载于:https://www.cnblogs.com/wfwup/archive/2008/11/18/1336133.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值