使用System.Text.RegularExpression中的API实现网页数据的抓取

      今天朋友提出希望做一个程序可以从一张HTML网页上截取表格数据并导入数据库(点击此处查看目标页面)。在确认此网站并未提供任何开放的服务接口后,确定了从HTML页面代码抓取有效数据的方案,通过查阅相关资料,该方案主要通过两种途径实现:

      途径A: 使用WebRequest, WebResponse获取HTML流,根据正则表达式判断并截取有效数据。
    
      途径B: 使用WebBrowser创建一个HtmlDocument对象,然后使用类似DOM的方式操作HTML元素获取有效数据。

      该网站提供的页面比较特殊,HTML元素均没有ID属性,故采用途径A实现。  阅读全文
发布了10 篇原创文章 · 获赞 1 · 访问量 4万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览