采集网页图片代码

采集网页上图片的主要关键是在怎么解析出页面代码里那些img标签的src属性,在网上找了下大多都是通过字符串操作找出img标签,这种方式操作起来比较麻烦,而且代码看起来比较累。这里我用的方法是通过WebBrowser来加载一个页面,然后HTMLDocument类来操作省去了字符串操作的步骤,直接调用GetElementsByTagName把所有图片地址返回到一个HtmlElementCollection对象里。
代码如下:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Net;
using System.IO;
using System.Windows.Forms;
namespace WindowsFormsApplication1
{
    public class GatherPic
    {
        private string savePath;
        private string getUrl;
        private WebBrowser wb;
        private int iImgCount;
        //初始化参数
        public GatherPic(string sWebUrl, string sSavePath)
        {
            this.getUrl = sWebUrl;
            this.savePath = sSavePath;
        }
        //开始采集
        public bool start()
        {
            if (getUrl.Trim().Equals(""))
            {
                MessageBox.Show("哪来的虾米连网址都没输!");
                return false;
            }
            this.wb = new WebBrowser();
            this.wb.Navigate(getUrl);
            //委托事件
            this.wb.DocumentCompleted += new System.Windows.Forms.WebBrowserDocumentCompletedEventHandler(DocumentCompleted);
            return true;
        }
        //WebBrowser.DocumentCompleted委托事件
        private void DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
        {
            //页面里框架iframe加载完成不掉用SearchImgList()
            if (e.Url != wb.Document.Url) return;
            SearchImgList();
        }
        //检查出所有图片并采集到本地
        public void SearchImgList()
        {
            string sImgUrl;
            //取得所有图片地址
            HtmlElementCollection elemColl = this.wb.Document.GetElementsByTagName("img");
            this.iImgCount = elemColl.Count;
            foreach (HtmlElement elem in elemColl)
            {
                sImgUrl = elem.GetAttribute("src");
                //调用保存远程图片函数
                SaveImageFromWeb(sImgUrl, this.savePath);
            }
        }
        //保存远程图片函数
        public int SaveImageFromWeb(string imgUrl, string path)
        {
            string imgName = imgUrl.ToString().Substring(imgUrl.ToString().LastIndexOf("/") + 1);
            path = path + "\\" + imgName;
            string defaultType = ".jpg";
            string[] imgTypes = new string[] { ".jpg", ".jpeg", ".png", ".gif", ".bmp" };
            string imgType = imgUrl.ToString().Substring(imgUrl.ToString().LastIndexOf("."));
            foreach (string it in imgTypes)
            {
                if (imgType.ToLower().Equals(it))
                    break;
                if (it.Equals(".bmp"))
                    imgType = defaultType;
            }
            try
            {
                HttpWebRequest request = (HttpWebRequest)WebRequest.Create(imgUrl);
                request.UserAgent = "Mozilla/6.0 (MSIE 6.0; Windows NT 5.1; Natas.Robot)";
                request.Timeout = 10000;
                WebResponse response = request.GetResponse();
                Stream stream = response.GetResponseStream();
                if (response.ContentType.ToLower().StartsWith("image/"))
                {
                    byte[] arrayByte = new byte[1024];
                    int imgLong = (int)response.ContentLength;
                    int l = 0;
                    // CreateDirectory(path);
                    FileStream fso = new FileStream(path, FileMode.Create);
                    while (l < imgLong)
                    {
                        int i = stream.Read(arrayByte, 0, 1024);
                        fso.Write(arrayByte, 0, i);
                        l += i;
                    }
                    fso.Close();
                    stream.Close();
                    response.Close();
                    return 1;
                }
                else
                {
                    return 0;
                }
            }
            catch (WebException)
            {
                return 0;
            }
            catch (UriFormatException)
            {
                return 0;
            }
        }
    }
}
//-----------------调用代码--------------------
GatherPic gatherpic = new GatherPic(“http://www.baidu.com”,"C:\test");
//请确保c:\下存在test路径
gatherpic.start()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
统一图片采集程序acc商业版 程序功能简介: 系统核心为新云网站内容管理系统 v3.1.0.1231 正式acc版 文章采集的同时可以选择是否下载图片到本地及分页采集。 全站生成HTML页面;增加系统安全性,自由设置生成HTML文件扩展名和存放目录 广告管理功能全部由系统生成JS文件管理, 避免了修改广告代码后需要重新生成HTML文件; 强大的模板后台,可灵活自由的生成模板标签、让您的站点版式自由改变。 完善的上传文件清理功能,为您清除垃圾文件; 需要注意的是: 为了新手易于使用,程序本身已经内置提供了对应网站的采集规则。 附加说明: (1)本程序修改自网上的大色女图库系统,对其发现的BUG进行修正,并增加了快车网图片频道的所有分类采集规则,由于快车网图片没有添加水印,我们推荐用户采集快车网图库,上千万的图片数据。如果站长空间允许,建议您将采集图片保存在您的本地,不影响您的访问速度,有需要可以对您所采集图片进行批量增加水印,起到宣 传您站点的作用。最主要的是稳定。 (2) 首页部分文字和广告位需要手动修改跟目录下的index.asp文件,由于系统问题,建议用户不要修改静态文件的保存目录和文件名前缀,涉及修改的文件较多,我已经给大家 设置好了,除了首页不生成静态,其他全部内容页都能生成静态。 (3)快车下载联盟(union.flashget.com) 这点我们考虑到了站长的挣钱途径,现在国内使用迅雷的用户是在减少,而快车用户呈上升势头,所以我们考虑做快车的联盟,快车是全球用户数最多的下载工具,最近发布了迷你版,站长可以去下载安装,特别适合笔记本用。安装量上去了我们的钱挣的也就越多,再加上快车下载联盟稳定,收入 还按时发。没有注册的用户可以到快车下载联盟注册帐号,然后在本系统相关页面修改联盟ID为您的ID就可以了。 需要修改的文件:登录后台后在【常规设置】找【模板管理】,然后点SEX后对文章页面内容模板编辑,将其中的12943替换为你的联盟ID即可,应该有三个位置。快车搜索也能挣钱。 (4)采集说明:采集的时候,需要手动修改您要采集的页数,采集过的数据是不能再次采集的,在远程列表起始页选项修改。 有问题请及时关注我们的网站,我们不断对版本进行更新和完善,最后首席男生感谢您的使用。 (5)顶部广告位和导航修改 在根目录下的 /skin/sex/ top.js up.js 两个文件中修改。 后台登陆地址:/admin/admin_login.asp 默认管理员:admin 密码:123456 程序演示地址:http://www.abumei.com/ (除去生成的静态页面和本地图片源码只有11M) 您使用的时候把静态目录disp目录下的所有文件删除,然后后台文章管理把所有已经入库的文章删除,设定好您的网站信息后重新采集到你站点即可。 -------本程序由【刚果工作室】修改

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值