c# 获取html中指定标签信息,C#抓取网页数据 解析标题描述图片等信息 去除HTML标签...

本文介绍了如何使用C#从HTML中抓取网页数据,包括获取标题、描述信息以及提取图片URL。通过WebClient下载网页数据,然后使用正则表达式匹配所需内容,同时提供了一个去除HTML标签的函数。
摘要由CSDN通过智能技术生成

一、首先将网页内容整个抓取下来,数据放在byte[]中(网络上传输时形式是byte),进一步转化为String,以便于对其操作,实例如下:

private static string GetPageData(string url)

{

if (url == null || url.Trim() == "")

return null;

WebClient wc = new WebClient();

wc.Credentials = CredentialCache.DefaultCredentials;

Byte[] pageData = wc.DownloadData(url);

return Encoding.Default.GetString(pageData);//.ASCII.GetString

}

二、得到了数据的字符串形式,然后可以对网页进行解析了(其实就是对字符串的各种操作和正则表达式的应用):

常用的的解析还有以下几种:

1.获取标题

Match TitleMatch = Regex.Match(strResponse, "

([^", RegexOptions.IgnoreCase | RegexOptions.Multiline);

title = TitleMatch.Groups[1].Value;

2.获取描述信息

Match Desc = Regex.Match(strResponse, "", RegexOptions.IgnoreCase | RegexOptions.Multiline);

strdesc =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值