今天朋友提出希望做一个程序可以从一张HTML网页上截取表格数据并导入数据库(
点击此处查看目标页面)。在确认此网站并未提供任何开放的服务接口后,确定了从HTML页面代码抓取有效数据的方案,通过查阅相关资料,该方案主要通过两种途径实现:
途径A: 使用WebRequest, WebResponse获取HTML流,根据正则表达式判断并截取有效数据。
途径B: 使用WebBrowser创建一个HtmlDocument对象,然后使用类似DOM的方式操作HTML元素获取有效数据。
该网站提供的页面比较特殊,HTML元素均没有ID属性,故采用途径A实现。 阅读全文
途径A: 使用WebRequest, WebResponse获取HTML流,根据正则表达式判断并截取有效数据。
途径B: 使用WebBrowser创建一个HtmlDocument对象,然后使用类似DOM的方式操作HTML元素获取有效数据。
该网站提供的页面比较特殊,HTML元素均没有ID属性,故采用途径A实现。 阅读全文