用watij爬取网页内容

最新推荐文章于 2021-02-09 14:02:38 发布

打杂人

最新推荐文章于 2021-02-09 14:02:38 发布

阅读量3.6k

点赞数

文章标签： firefox extension application mozilla ruby file

前段时间，移动组找我帮忙抓个数据：http://jwc.hust.edu.cn:81/index.aspx，我看了看，觉得应该没问题吧，就答应了。后来发现，asp.net真不是一般的变态啊。。。
尝试了各种方法，都不行，只好请教师傅。师傅也很纠结，后来不知道从哪儿搜出了个方法，用watir（web application test in ruby），通过ruby打开firefox然后访问网页，并对网页进行操作，来获取数据。
看起来很简单。。但是麻烦在于要编译一个firefox。。编译一个firefox也不是特麻烦。。麻烦在还得加个jssh的extension。。加个extension也不是很麻烦。。还不能用firefox的新版本。。话说那弄个旧版本吧，不难吧。。旧版本还我勒个去不能再ubuntu11.10上编译。。。。。后来纠结到了win32上，得把firefox删了，下个3.X的版本。。。
搞了好久，搞的好无语，最后周导居然还真的整出来了。。。这都不是重点，重点是我感觉这太难搞了，平台要求太高啊，兼容性太差啦。。好吧其实是我嫌麻烦。。。
然后我打开了google，输入 watir java。喵了个咪的，这不是有watij（web application test in java）吗！
一开始我还以为只是不用装ruby了而已，用了之后发现，什么系统版本，什么firefox版本都弱爆了好不好，别人直接把mozilla给你封装好了，直接用啊。所以最后发现真的是很简单。。

 
package com.zhiweizhang.crawler;
 
 
 
import java.io.BufferedWriter;
 
import java.io.File;
 
import java.io.FileWriter;
 
 
 
import org.watij.webspec.dsl.Tag;
 
import org.watij.webspec.dsl.WebSpec;
 
 
 
public class WatijCrawler {
 
 
 
    private static String homepage = "http://jwc.hust.edu.cn:81/index.aspx";
 
 
 
    //教学楼对应value值，西十二8，东九7，西五5，东十二1
 
    private static String[] building = {"西十二", "东九", "西五", "东十二"};
 
    private static String[] buildingValue = {"8", "7", "5", "1"};
 
 
 
    public static void main(String[] args) throws Exception {
 
        //打开网页，并隐藏webspec界面
 
        WebSpec ws = new WebSpec().mozilla().hide();
 
        ws.open(homepage);
 
 
 
        for (int i = 0; i < 4; i ++) {
 
            System.out.println("Fetching information of building " + building[i]);
 
            ws.find.select().with.id("Build").set("value", buildingValue[i]);//选择教学楼
 
            ws.find.input().with.name("btnRightall").click();//选择所有教室
 
            ws.find.input().with.name("Button1").click();//点击查询
 
            int page = 0;
 
            File file;
 
            Tag tag = ws.find.a().with.innerText("后页");
 
            //下载所有页的网页
 
            while (tag.exists()) {
 
                page++;
 
                file = new File(building[i] + "/" + page + ".html");
 
                BufferedWriter bw = new BufferedWriter(new FileWriter(file));
 
                System.out.println("Downloading page " + page + " ...");
 
                bw.write(source());
 
                bw.close();
 
                tag.click();
 
                tag = ws.find.a().with.innerText("后页");
 
            }
 
            System.out.println("All the pages have been downloaded.");
 
        }
 
    }
 
 
 
}