C# 抓取页面中的所有链接

最新推荐文章于 2024-02-26 08:59:06 发布

hb_cattle

最新推荐文章于 2024-02-26 08:59:06 发布

阅读量1.4k

点赞数

分类专栏： ASP.NET 文章标签： c# string list regex html null

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hb_cattle/article/details/1890435

版权

ASP.NET 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

由于在最近的一个项目中，涉及到对页面的链接的抓取。以下是我总结的一些代码，现贴出来与大家分享：

List < String > titles = new List < string > ();

List < String > urls = new List < string > ();

String html = null ;

String p = @" <a[sS]*?href=(""(?<url>[^""]*)""|'(?<url>[^']*)'|(?<url>[^>s]*))[^>]*?>(?<title>[sS]*?)</a> " ;

Regex reg = new Regex(p, RegexOptions.IgnoreCase | RegexOptions.Compiled);

MatchCollection ms = reg.Matches(html);

foreach (Match m in ms)

{

titles.Add(m.Groups["title"].Value);

urls.Add(m.Groups["url"].Value);

}

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄18年

52
原创

4
点赞

16
收藏

15
粉丝

关注

私信

热门文章

分类专栏

最新评论

使用DISTINCT去掉重复，并查询所有字段
qq_34373891: 额有点慢。。查一万条数据跑了1分钟还没出来
如何使浏览的网页不缓存或访问后立即过期
微wx笑: Pragma:no-cache，跟Cache-Control: no-cache相同。Pragma: no-cache兼容http 1.0 ，Cache-Control: no-cache是http 1.1提供的。因此，Pragma: no-cache可以应用到http 1.0 和http 1.1，而Cache-Control: no-cache只能应用于http 1.1. <META HTTP-EQUIV="Expires" CONTENT="-1" /> -1 才可以禁止缓存，0 应该是永不过期；每种后台语言都提供了相关的方法，但本质是一样的；
ERWin 7.1 和7.2 的官方FTP下载地址
happycc99: 请问有谁知道哪里下载FTP软件?
ERWin 7.1 和7.2 的官方FTP下载地址
happycc99: 刚下载, 还没用. 特谢谢你!
ERWin 7.1 和7.2 的官方FTP下载地址
a744273237: 你真好 , 谢谢拉 !

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。