c#爬虫与Regex类（字符串匹配）

最新推荐文章于 2023-05-13 17:18:16 发布

微扬嘴角

最新推荐文章于 2023-05-13 17:18:16 发布

阅读量375

点赞数 1

本文链接：https://blog.csdn.net/qq_51476492/article/details/116173339

版权

本文介绍了如何使用C#的WebClient类进行网页爬取，并结合Regex类进行正则表达式匹配，从网页源代码中提取特定信息。通过示例展示了如何爬取网页并利用Matches()方法获取href属性值，从而提取网页链接。

摘要由CSDN通过智能技术生成

c#封装了现有的实行爬虫的WebClient类：
一般代码写法：
WebClient webClient = new WebClient();//定义一个WebClient对象
webClient.Encoding = Encoding.UTF-8;
string url = “xx”;//爬取的网页地址
wecClient.DownloadString(url);//调用DownloadString()方法爬取，爬取结果为字符串
也可以采用WebClient对象的其他不同方法获取不同的爬取结果：
在这里插入图片描述

2.Regex类

Regex类的静态方法IsMatch()的第一个参数为被匹配的字符串，第二个参数为正则表达式，若被匹配的字符串满足正则表达式（前一个字符串包含后一个字符串，或满足以指定元素开头与结尾的正则表达式规则）该方法的返回值为true,否则为false。
在这里插入图片描述
爬虫实例：
例如：爬取下列字符串的网页：

网站源代码：

注意这里输出了爬取结果。