网页数据抓取并分析

原创 2007年09月11日 17:57:00

项目需求
1、抓取网页数据,分析网页数据中的[下一页]的网址,继续抓取数据,直到把所有需要的网页全部下载完毕;
2、对上一部抓取下来的数据进行分析,保存为需要的Xml格式文件,供相关程序使用。

技术分析
使用C#作为开发工具,用WebRequest、WebResponse获取网页数据,用正则表达式分析数据,生成XML文件保存到指定目录。
该程序应主要有两点:
一、抓取网页数据,保存文件到指定目录
用WebRequest、WebResponse获取网页数据,用StreamWriter将数据写入文件。
获取网页中相关链接,重复获取网页数据。
二、分析数据,生成XML文件
读取第一步生成的文件,用正则分析数据,构造XML文件,保存到本地目录。

问题讨论

如果网页需要用户登录才能访问,如何实现自动登录?

C#抓取网页数据、分析并且去除HTML标签

首先将网页内容整个抓取下来,数据放在byte[]中(网络上传输时形式是byte),进一步转化为String,以便于对其操作,实例如下: private static string GetPage...
  • god9me
  • god9me
  • 2011年10月11日 11:07
  • 981

抓取Web网页数据分析

Posted on 2006-05-24 14:04 北极燕鸥 阅读(9793) 评论(42) 编辑 收藏 所属分类: C#编程   通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序。比方说...
  • smeyou
  • smeyou
  • 2011年02月15日 10:31
  • 575

如何抓取网页中的实时监测数据进行分析

使用wpf做了窗体,跟Silverlight开发环境一样,将前台设计与后台开发逻辑分离开来,抓取南京市九个PM 2.5监测站点的数据     前台代码: ...

运用正则抓取网页数据

  • 2015年08月11日 11:44
  • 28KB
  • 下载

Http,Jsoup-网页数据抓取

  • 2015年05月25日 18:57
  • 3.58MB
  • 下载

Matlab抓取网页数据

本文示例借助正则表达式regexp进行语法识别,抓取网页数据: 代码: url='http://quote.eastmoney.com/stock_list.html'; [str status]...
  • sundros
  • sundros
  • 2015年07月23日 15:23
  • 11364

java网页抓取数据

  • 2014年05月11日 23:41
  • 1.38MB
  • 下载

网页分页数据的三种抓取方式亲测

相信所有个人网站的站长都有抓取别人数据的经历吧,目前抓取别人网站数据的方式无非两种方式:   一、使用第三方工具,其中最著名的是火车头采集器,在此不做介绍。     二、自己写程序抓取,...

PHP抓取网页数据插入数据库

  • 2012年06月26日 17:42
  • 4KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:网页数据抓取并分析
举报原因:
原因补充:

(最多只允许输入30个字)