1. 目的
用五笔时,如果碰到不会拆的字,只好换回拼音。但这样做治标不治本,于是到网上找五笔反查工具。最后发现一个不错的网站——不仅有每个字对应的五笔码,还有其字根图。可惜的是,这是一个网站。换句说,就是每次查的时候都要上网。很自然的,会想到将这个网站上的五笔码以及对应的字根图保存到本地上,再写个查询程序做成本地版的>_<
2. 准备工作——网页特点分析
网站(http://www.wb86.com/wbcx)提供了两种查询方式:一种是输入要查询的字;另外一种是一页接着一页地查看。由于懒得找字库,就选择了第二种方式。在此方式下,第一页的URL是http://www.wb86.com/wbcx/index5.asp?page=1,第二页的URL是http://www.wb86.com/wbcx/index5.asp?page=2,第三页的URL是http://www.wb86.com/wbcx/index5.asp?page=3。通过前三个页的URL,有理由相信第X页的URL是http://www.wb86.com/wbcx/index5.asp?page=X。
解决URL问题后,就要分析如何从单个网页得到所需要的资源。查看第一页的源代码发现“86五笔编码”只出现过一次,而且其后面就是想要的五笔码。因此得到服务器发回的内容后,再定位到“86五笔编码”就能得到相应的五笔码。字根图的URL地址出现在五笔码之后,而且都是以