最近在写一个小程序的时候,遇到这样的需求:
已知一组网页url地址,想获取每一个网页的html,实际上就是想利用循环语句里面使用WebBrowser来加载每一个网页,然后获取他们的html,
要实现这个功能,想想应该是件很简单的事情,但是在实际操作中却遇到了问题,因为循环语句和WebBrowser的加载不同步的原因,导致前一个
前一个网页还没加载完,下一次循环又开始了....最终的结果是WebBrowser只获取到了最后一个页面的html.要解决这个问题,我们要做的就是
让循环执行完前一次后等待网页加载完,然后执行下一次循环去加载下面的网页.....,按照这个思路,写了以下程序,经测试果然有效.
bool
loading
=
true
;
//
该变量表示网页是否正在加载.
string html = string .Empty;
WebBrowser browser = new WebBrowser();
public void GetHtml( string [] urls)
{
browser.Navigated += new WebBrowserNavigatedEventHandler(browser_Navigated);
foreach ( string url in urls)
{
loading = true ; // 表示正在加载
browser.Navigate(url);
while (loading)
{
Application.DoEvents(); // 等待本次加载完毕才执行下次循环.
}
}
}
void browser_Navigated( object sender, WebBrowserNavigatedEventArgs e)
{
html = browser.DocumentText; // 获取到的html.
loading = false ; // 在加载完成后,将该变量置为false,下一次循环随即开始执行.
}
string html = string .Empty;
WebBrowser browser = new WebBrowser();
public void GetHtml( string [] urls)
{
browser.Navigated += new WebBrowserNavigatedEventHandler(browser_Navigated);
foreach ( string url in urls)
{
loading = true ; // 表示正在加载
browser.Navigate(url);
while (loading)
{
Application.DoEvents(); // 等待本次加载完毕才执行下次循环.
}
}
}
void browser_Navigated( object sender, WebBrowserNavigatedEventArgs e)
{
html = browser.DocumentText; // 获取到的html.
loading = false ; // 在加载完成后,将该变量置为false,下一次循环随即开始执行.
}
上面的问题解决了,下面随之而来的问题是: 有时候加载一张页面的时候,browser_Navigated会执行多次.
查了下网上的资料,原因是页面中含有<iframe></iframe>,每一个<iframe>都会触发一次browser_Navigated,
所以,以上程序可以完善如下:
bool
loading
=
true
;
//
该变量表示网页是否正在加载.
string html = string .Empty;
WebBrowser browser = new WebBrowser();
public void GetHtml( string [] urls)
{
browser.Navigated += new WebBrowserNavigatedEventHandler(browser_Navigated);
foreach ( string url in urls)
{
loading = true ; // 表示正在加载
browser.Navigate(url);
while (loading)
{
Application.DoEvents(); // 等待本次加载完毕才执行下次循环.
}
}
}
int i = 0 ;
void browser_Navigated( object sender, WebBrowserNavigatedEventArgs e)
{
i ++ ;
if (i % 3 == 0 ) // 假设每张页面要执行3次browser_Navigated方法,那么这表示网页全部内容加载完成.(至于这个3要怎么样得到,那是仁者见仁的事情了,呵呵)
{
html = browser.DocumentText; // 获取到的html.
loading = false ; // 在加载完成后,将该变量置为false,下一次循环随即开始执行.
}
}
string html = string .Empty;
WebBrowser browser = new WebBrowser();
public void GetHtml( string [] urls)
{
browser.Navigated += new WebBrowserNavigatedEventHandler(browser_Navigated);
foreach ( string url in urls)
{
loading = true ; // 表示正在加载
browser.Navigate(url);
while (loading)
{
Application.DoEvents(); // 等待本次加载完毕才执行下次循环.
}
}
}
int i = 0 ;
void browser_Navigated( object sender, WebBrowserNavigatedEventArgs e)
{
i ++ ;
if (i % 3 == 0 ) // 假设每张页面要执行3次browser_Navigated方法,那么这表示网页全部内容加载完成.(至于这个3要怎么样得到,那是仁者见仁的事情了,呵呵)
{
html = browser.DocumentText; // 获取到的html.
loading = false ; // 在加载完成后,将该变量置为false,下一次循环随即开始执行.
}
}
以上只是笔者在工作中的一点小总结,写出来做个笔记,也希望能给其他人带来一些帮助.相信解决此问题的方法颇多,望不吝赐教...