最近使用URL爬取一个网页,发现每次请求地址都会自动被拦截下来,回到登录,带上用户名和密码也没用.类似于这样:
使用f12查看,发现是需要cookie。于是使用
static final String urlStr = "http://eclass.hfuu.edu.cn/login/index.php";
static final String tiku = "http://eclass.hfuu.edu.cn/course/view.php?id=36";
Connection conn = Jsoup.connect(urlStr).data(map);//获取网址连接
conn.method(Method.POST); //原网页要求post请求
conn.followRedirects(false);//是否重定向设置为false
Response resp = conn.execute();//获取请求头部
System.out.println(resp.cookies());//输出请求的cookies集合
以上方法可以获得cookies。然后通过
Document doc = null;
try {
doc = Jsoup.connect(url).cookies(cookies).timeout(30000).get();
} catch (IOException e) {
e.printStackTrace();
}
方法可以拿到cookies,再次访问结果可以直接跳转到题库页面。然后就是正常的获取页面数据了
Elements elements = doc.select("div.activityinstance > a");//获取页面所有class= "activityinstance "的div标签下的a标签。
elements.remove(elements.first());//由于我这边第一个网址是新闻标题,不是具体子页面,所以删除
for(Element e : elements){
String filename = e.text();
String fileUrl = e.attr("href");
System.out.println("正在爬取题库:"+filename);
System.out.println("网址为:"+fileUrl);
paqu(filename,fileUrl);
}
具体匹配和抓取方法 可以根据网站特性。这里直接上源码吧,百度云链接
链接:https://pan.baidu.com/s/1OvXSdNyqPHDw_whpkLfUDQ
提取码:8dlu
其他的包都是我乱写的测试,主要代码在com.login包下面的Main类中。JDK使用的是1.7版本。jdk向上兼容。其他包都在lib下。只要jdk版本不比我的低,代码可以直接运行。