前两天,由于防盗链,接触到HttpClient这个包,后来加点需求,做一个网页小偷程序试试看,花了一天时间,终于有所斩获。所需技术:HttpClient,HttpParser.
其中,HttpClient主要做的工作是获取html数据,而HttpParser主要是解释html,从中来获取我们有需要的那部分。
1。准备工作:
搭建环境,
httpClient4.0 开发包
httpParser2.0开发包
common-logging.jar
2。懒得搞那么复杂,通过程序说话吧。。以下是程序代码,在代码中说话吧:
总结,上述只是个简单的例子。我们可以先求实现然后再来完善,如处理多线程取数,断线或404时的考虑 等。。。
HtmlParser参考资料:
打开:www.google.com 搜:HtmlParser 回车 n_n