用正则表达式自动下载网页中的图片

最新推荐文章于 2024-04-02 05:19:32 发布

iteye_5351

最新推荐文章于 2024-04-02 05:19:32 发布

阅读量99

点赞数

分类专栏：技术杂绘

本文链接：https://blog.csdn.net/iteye_5351/article/details/82366278

版权

技术杂绘专栏收录该内容

21 篇文章 0 订阅

订阅专栏

　　原文网址：http://blog.csdn.net/yizhiduxiu11/archive/2010/09/ 13/5881442.aspx
　　首先获得网页的Html代码，然后用正则表达式分析其中图片的下载地址，最后自动逐个下载。
　　Code
　　using System.Net;
　　/**/
　　/// Download Image from website
　　/// better to put into threads
　　///
　　private void DownloadImage()
　　{
　　WebClient c = new WebClient();
　　//Get html code
　　string content = c.DownloadString(Uri);
　　Collection address = new Collection();
　　Collection name = new Collection();
　　//Analyse html code to get images address(Uri) and (Name) list
　　ParseHtml(content, Prefix, PicUriPrefix + @"(?[^""]*?)"">(?[^", address, name);
　　if (address.Count > 0 && name.Count > 0 && address.Count == name.Count)
　　{
　　if (Directory.Exists(folder) == false) Directory.CreateDirectory(folder);//Create folder
　　foreach (string add in address)
　　{
　　//Download images one by one
　　c.DownloadFile(add, Path.Combine(folder, name[address.IndexOf(add)] + ".jpg"));
　　}
　　}
　　}
　　/**
　　/// Parse Html using regular expressions
　　///
　　/// Html content
　　/// Uri prefix
　　/// regular expression
　　/// Image addresses collection
　　/// Image names collection
　　private void ParseHtml(string content, string prefix, string expression, Collection address, Collection name)
　　{
　　if (String.IsNullOrEmpty(expression) || address == null || name == null) return;
　　Regex re = new Regex(expression, RegexOptions.IgnoreCase | RegexOptions.Singleline | RegexOptions.RightToLeft);
　　MatchCollection mc = re.Matches(content);
　　if (mc == null || mc.Count == 0) return;
　　foreach (Match m in mc)
　　{
　　address.Add(prefix + m.Groups["Uri"].Value);
　　name.Add(m.Groups["Name"].Value);
　　}
　　}
　　Html部分代码如下：
　　Html code
　　alt="" src="/docfile/dyn/12345678LANGCCCCDDDDEEEEEEEERT09 ">BMW 3-series\par
　　alt="" src="/docfile/dyn/12345678LANGCCCCDDDDEEEEEEEEEE01 ">Toyota\par
　　alt="" src="/docfile/dyn/12345678LANGCCCCDDDDEEEEEEEEJY25 ">Polo cross\par
　　alt="" src="/docfile/dyn/12345678LANGCCCCDDDDEEEEEEEEMO02 ">Golf 4.5\par
　　要用正则表达式从中获得图片下载地址（例如：/docfile/dyn/12345678LANGCCCCDDDDEEEEEEEERT09）和图片名称（例如：BMW 3-series）
　　正则表达式部分如下：
　　Regular expression
　　@"/docfile/dyn/(?[^""]*?)"">(?[^"
　　注意其中group的用法(? *?)，和引号的匹配用法，匹配双引号前面需要再带一个双引号。其中Uri这个group在dyn/后面，直到双引号结束；后面跟随着双引号和>，然后就是Name这个group；它以。
　　本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/yizhiduxiu11/archive/2010/09/ 13/5881442.aspx

iteye_5351

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用正则表达式自动下载网页中的图片

　　原文网址：http://blog.csdn.net/yizhiduxiu11/archive/2010/09/ 13/5881442.aspx 　　首先获得网页的Html代码，然后用正则表达式分析其中图片的下载地址，最后自动逐个下载。　　Code 　　using System.Net; 　　/**///// 　　/// Download Image from website ...
复制链接

扫一扫