HtmlAgilityPack1.8.5所写的根据URL解析网页，获取TABLE里的内容，包含源码

最新推荐文章于 2022-06-09 15:47:12 发布

qq_34719168

最新推荐文章于 2022-06-09 15:47:12 发布

阅读量919

点赞数

分类专栏： HtmlAgilityPack1.8.5 文章标签： https://pan.baidu.com/s/1KswHY

本文链接：https://blog.csdn.net/qq_34719168/article/details/81539223

版权

HtmlAgilityPack1.8.5 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

使用c#，WINFORM所写。

一，新建一个窗体，放入一个WebBrowser.

二，在Form1_Load里指定Url，在WebBrowser的DocumentCompleted事件里写入下面代码。

List<HtmlElement> tempLink = webBrowser1.Document.GetElementsByTagName("a").Cast<HtmlElement>().ToList();

            tempLink.ForEach(s =>
            {
                if (s.OuterHtml.Contains(ConfigurationManager.AppSettings["Filter1"]) && s.InnerHtml.Contains(ConfigurationManager.AppSettings["Filter2"]))
                {
                    s.Click += new HtmlElementEventHandler(Link_Click);
                }
            });

三，给需要获取的a添加Click事件。

        private void Link_Click(object sender, HtmlElementEventArgs e)
        {
            string url = this.webBrowser1.StatusText;
            
            if (!url.Equals(""))
            {
                string rowPath = ConfigurationManager.AppSettings["XPath"];
                Hashtable ht = TableHelper.ParsingWeb(url, rowPath);
                MessageBox.Show(ht.Count.ToString());
            }
        }

四，添加处理获取到的HTML标签的类。

public static Hashtable ParsingWeb(string url, string rowPath)
        {
            HtmlWeb web = new HtmlWeb();
            HtmlDocument doc = web.Load(url);
            HtmlNode row = doc.DocumentNode.SelectSingleNode(rowPath);

            Hashtable htTable = new Hashtable();
            var tableRows = row.SelectNodes("//tr").ToList();

            tableRows.ForEach(s=> {
                string strText = Regex.Replace(s.InnerHtml, "<[^>]+>", "");
                strText = Regex.Replace(strText, "&[^;]+;", "");

                //去除\r\n\t以及空格，获取到相应td里面的数据
                var line = strText.Split(new char[] { '\r', '\n', '\t', ' ' }, StringSplitOptions.RemoveEmptyEntries).ToList();

                htTable.Add(line[0], line[1]);

            });

            return htTable;
        }

五。获取的参数放在App.config里。

源码下载

qq_34719168

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HtmlAgilityPack1.8.5所写的根据URL解析网页，获取TABLE里的内容，包含源码

使用c#，WINFORM所写。一，新建一个窗体，放入一个WebBrowser.二，在Form1_Load里指定Url，在WebBrowser的DocumentCompleted事件里写入下面代码。List<HtmlElement> tempLink = webBrowser1.Document.GetElementsByTagName("a").Cast<HtmlE...
复制链接

扫一扫

专栏目录