侞婼冇罪

主业前端,偶尔也写写后端

C#网页数据采集(二)WebBrowser

WebBrowser是一个.NET控件类(设置下web脚本错误忽略)支持获取页面加载完毕的源码,而不是初始化的源码


用到了一个web的一个文档全部加载事件:

调用方法:

  webBrowser1.Navigate("http://news.baidu.com/");//web浏览百度新闻页面

 

   private void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)

        {

System.IO.StreamReader streamReader = new System.IO.StreamReader(this.webBrowser1.DocumentStream, System.Text.Encoding.GetEncoding("gb2312"));//如果web浏览页面乱码可以使用这个方法进行转码

            string strWebBrowserDocument = streamReader.ReadToEnd();

   }


web的一些属性:

 webBrowser1.Document.Title//获取或设置页面的title

 webBrowser1.Document.Url//当前请求页面的地址

webBrowser1.DocumentText//获取或者设置html内容

webBrowser1.Document.GetElementsByTagName("h3")//获取所有标签为h3的标签

webBrowser1.Document.GetElementById("h3")//获取id为h3的标签

GetAttribute("className");//获取样式名称

GetAttribute("href")//获取a标签的里的url

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_26744901/article/details/49946891
文章标签: 数据采集
个人分类: C#
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭