python消找出img中的src标签_获取文本中所有的<img>标签的位置,获取所有img标签的src...

这篇博客介绍了如何使用Python处理HTML文本,通过正则表达式找到所有<img>标签的位置,并提取出它们的src属性。提供的两个方法分别是GetImagePos()用于获取<img>标签的起始位置,以及GetHtmlImageUrlList()用于获取所有img标签的src路径。
摘要由CSDN通过智能技术生成

public static int[] GetImagePos(string str)

{

str = str.Replace("$", " ");

str = Regex.Replace(str, @"(?!)<.>", "");

str = Regex.Replace(str, @"]*>", "$");

int startPos = 0;

int foundPos = -1;

int count = 0;

List foundItems = new List();

do

{

foundPos = str.IndexOf("$", startPos);

if (foundPos > -1)

{

startPos = foundPos + 1;

count++;

foundItems.Add(foundPos);

}

} while (foundPos > -1 && startPos < str.Length);

return ((int[])foundItems.ToArray());

}

///

/// 获取Img的路径

///

/// Html字符串文本

/// 以数组形式返回图片路径

public static string[] GetHtmlImageUrlList(string htmlText)

{

Regex regImg = new Regex(@"]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);

//新建一个matches的MatchCollection对象 保存 匹配对象个数(img标签)

MatchCollection matches = regImg.Matches(htmlText);

int i = 0;

string[] sUrlList = new string[matches.Count];

//遍历所有的img标签对象

foreach (Match match in matches)

{

//获取所有Img的路径src,并保存到数组中

sUrlList[i++] = match.Groups["imgUrl"].Value;

}

return sUrlList;

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值