使用 HttpClient 和 HtmlParser 实现简易爬虫
https://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/
http://www.03964.com/read/b5cb2ab500aac7a1cc02d392.html
爬虫--搜索引擎
http://www.ibm.com/developerworks/cn/java/j-lo-dyse1/
实现方法:
1.正则表达式
2.xml解析器