知识点:
1、jsoup 解析html,也能解析xml;用jsonp解析html能像jquery一样方便。
2、dom4j(http://www.cnblogs.com/mouse-coder/p/3451243.html) 、xpath 、Jaxb(http://blog.csdn.net/tina13624/article/details/51785417、http://www.oschina.net/code/snippet_12_5581)解析xml,解析xml功能丰富,强大
3、正则匹配页面元素
爬虫需关注的点:
爬虫的URL管理、
线程池之类的、
数据流编码:http://blog.csdn.net/turnhead/article/details/48036017;
爬虫框架:
1、开源爬虫框架各有什么优缺点?http://blog.csdn.net/zyj8170/article/details/538838862
2、github上的java爬虫项目