在下载网页源代码时,我们必须获取网页正确的网址。但是很多网页的网址并不是我们所需要的网址,这时就需要我们解析。
第一类网址如:http://www.boc.cn/sourcedb/whpj/。像这样的网址,我们可以直接下载我们所需要的数据。
第二类网址如:http://www.sge.sh/publish/sge/xqzx/jyxq/index.htm 先从一个网页获取网址,然后从获取的网址中找到我们需要的网址。
第三类网址如:http://www.sse.com.cn/sseportal/webapp/rzrq/sumdatainfo。如何下载指定日期的网址呢?我们可以查看源代码,找到相应的JS代码。下载指定日期的数据需要我们传递日期参数。最后就可以写成:http://www.sse.com.cn/sseportal/webapp/rzrq/sumdatainfosumtype=mxtype&GOTOPAGE=1&mbyear=2011&mbmonth=09&mbday=20&meyear=2011&memonth=09&meday=21
第四类网址如:http://money.finance.sina.com.cn/mkt/#zs_hk。这类网站的数据是延迟加载的。同样我们可以通过解析JS文件获得正确的网址。
我们可以借助Mozilla Firefox火狐浏览器。火狐浏览器会让我们的工作事半功倍哦!!