昨天终于把抽取网页信息的和与数据库连接的两部分代码写完并测试了,基本上还是可以运行滴,只是还是有些小bug,这都是源于编程时想的不够仔细。在这过程中碰到了几个困难:
1。网页的源代码采用的字符编码问题。因为网页的源代码里是夹杂着中文字符的,所以我先以字节流的形式将整个源代码文件的内容读入一个字节数组里(byte[]),然后通过String类的构造函数String(byte[], String charset)构造一个新的字符串,其中charset是网页的源代码所选定的字符编码方式,这样得到的新的字符串就是用java里默认的Unicode编码表示的了。其实String(byte[], String charset)就是将用charset编码的字符串转换成用Unicode编码表示的字符串。因为我一开始没有注意到这个编码问题,所以弄了很久,呵呵。
2。对于一些防止别人采集信息的网站,如何去取得该网站的网页源代码文件。譬如我们要取得的信息就来源于一个采取了防止别人采集信息的网站。我们试过用HttpClient等工具,但结果还是不理想,这部分工作仍需努力。
3。测试。我们现在测试只是沿用刚开始学编程时候的方法,就是一步一步的debug,现在开始要学习如何进行单元测试了。学JUnit吧。