jsoup+sitemesh实现模拟登录

最新推荐文章于 2024-10-06 20:16:20 发布

chufahuan0735

最新推荐文章于 2024-10-06 20:16:20 发布

阅读量215

点赞数

文章标签： java php

原文链接：https://my.oschina.net/u/3047012/blog/2942156

版权

最近使用URL爬取一个网页，发现每次请求地址都会自动被拦截下来，回到登录，带上用户名和密码也没用.类似于这样：

使用f12查看，发现是需要cookie。于是使用

static final String urlStr = "http://eclass.hfuu.edu.cn/login/index.php";

static final String tiku = "http://eclass.hfuu.edu.cn/course/view.php?id=36";

Connection conn = Jsoup.connect(urlStr).data(map);//获取网址连接
conn.method(Method.POST); //原网页要求post请求
conn.followRedirects(false);//是否重定向设置为false
Response resp = conn.execute();//获取请求头部
System.out.println(resp.cookies());//输出请求的cookies集合

以上方法可以获得cookies。然后通过

Document doc = null;
       try {
           doc = Jsoup.connect(url).cookies(cookies).timeout(30000).get();
       } catch (IOException e) {
           e.printStackTrace();
       }

方法可以拿到cookies,再次访问结果可以直接跳转到题库页面。然后就是正常的获取页面数据了

       Elements elements = doc.select("div.activityinstance > a");//获取页面所有class= "activityinstance "的div标签下的a标签。
       elements.remove(elements.first());//由于我这边第一个网址是新闻标题，不是具体子页面，所以删除
       for(Element e : elements){
           String filename = e.text();
           String fileUrl = e.attr("href");
           System.out.println("正在爬取题库："+filename);
           System.out.println("网址为："+fileUrl);
           paqu(filename,fileUrl);
       }

具体匹配和抓取方法可以根据网站特性。这里直接上源码吧，百度云链接

链接：https://pan.baidu.com/s/1OvXSdNyqPHDw_whpkLfUDQ
提取码：8dlu

其他的包都是我乱写的测试，主要代码在com.login包下面的Main类中。JDK使用的是1.7版本。jdk向上兼容。其他包都在lib下。只要jdk版本不比我的低，代码可以直接运行。

转载于:https://my.oschina.net/u/3047012/blog/2942156