爬虫就是根据页面的url来抓取页面的一些信息也就是页面的html代码,抓到后可以根据正则去匹配想要的片段,比如想要某一个页面中的一个图片,那么这个图片一定有自己的URL地址,可以正则匹配到这个url 在进行图片下载,也有很多人先写正则,根据正则的规则抓取页面的信息,当然这都是一种方式,根据业务需求去量身定做就好了,其实这两种方式各有好处,第一中适用于页面不会变化的,在代码里面写正则还是容易很多,第二种适用于页面经常改变的那么将正则放到数据库里面就可以了,以后页面变了直接改数据库而不是去该代码还要重新启动服务对吧!下面我举个小例子吧
第一步:要有一个工具类,可以根据给定的URL地址去链接页面,在读取页面中的信息,当然java的.net包早已经提供了这种功能(也可以用更好的HttpClient)
就抓取搜库排行榜的 神雕侠侣的详情页吧 地址:rul=http://www.soku.com/v?keyword=%E7%A5%9E%E9%9B%95%E4%BE%A0%E4%BE%A3
/**
*
* @author 奇
*
* 2015-3-5
*/
public class ReptileUtil {
public static String getHtmlData(String path) {
//传入的页面地址 url
StringBuffer sb = new StringBuffer();
try {