jsoup+sitemesh实现模拟登录

最近使用URL爬取一个网页,发现每次请求地址都会自动被拦截下来,回到登录,带上用户名和密码也没用.类似于这样:

dcc87f8ed3a69624242a359878bef406074.jpg

使用f12查看,发现是需要cookie。于是使用

static final String urlStr = "http://eclass.hfuu.edu.cn/login/index.php";

static final String tiku = "http://eclass.hfuu.edu.cn/course/view.php?id=36";

Connection conn = Jsoup.connect(urlStr).data(map);//获取网址连接
conn.method(Method.POST);  //原网页要求post请求
conn.followRedirects(false);//是否重定向设置为false
Response resp = conn.execute();//获取请求头部
System.out.println(resp.cookies());//输出请求的cookies集合

以上方法可以获得cookies。然后通过

Document doc = null;
        try {
            doc = Jsoup.connect(url).cookies(cookies).timeout(30000).get();
        } catch (IOException e) {
            e.printStackTrace();
        }

方法可以拿到cookies,再次访问结果可以直接跳转到题库页面。然后就是正常的获取页面数据了

        Elements elements = doc.select("div.activityinstance > a");//获取页面所有class= "activityinstance "的div标签下的a标签。
        elements.remove(elements.first());//由于我这边第一个网址是新闻标题,不是具体子页面,所以删除
        for(Element e : elements){
            String filename = e.text();
            String fileUrl = e.attr("href");
            System.out.println("正在爬取题库:"+filename);
            System.out.println("网址为:"+fileUrl);
            paqu(filename,fileUrl);
        }

具体匹配和抓取方法 可以根据网站特性。这里直接上源码吧,百度云链接

链接:https://pan.baidu.com/s/1OvXSdNyqPHDw_whpkLfUDQ 
提取码:8dlu 

其他的包都是我乱写的测试,主要代码在com.login包下面的Main类中。JDK使用的是1.7版本。jdk向上兼容。其他包都在lib下。只要jdk版本不比我的低,代码可以直接运行。

 

转载于:https://my.oschina.net/u/3047012/blog/2942156

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值