java Jsoup 抓取页面数据

List<ImageBean> imgList = new ArrayList<ImageBean>();
        ImageBean image = null;
        String imageTime = "";
        String imageName = "";
        String url = "";
        for (Map.Entry<String, String> entry : map.entrySet()) {
            try {
                Document doc = Jsoup.connect(entry.getKey()).get();
                Elements scripts = doc.select("script");

                JSONObject obj = null;
                String[] datas = entry.getValue().split(this.split);
                for (int i = 0; i < scripts.size(); i++) 
                {
                    Element script = scripts.get(i); // Get the script part
                    Pattern p = Pattern.compile(datas[3]); // 匹配图片链接地址的正则表达式
                    Matcher m = p.matcher(script.html()); // 匹配的字符串
                    while (m.find()) 
                    {
                        image = new ImageBean();
                        String matchStr = m.group(1);
                        obj = JSONObject.parseObject(matchStr);
                        url = datas[1] + obj.getString(datas[4]);
                        image.setUrl(url);
                        imageTime = getImageTime(url);
                        image.setName(imageTime);
                        image.setType(datas[3]);
                        image.setImageType(datas[5]);
                        imgList.add(image);
                    }
                }
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
<entry key="http://www.nmc.cn/publish/nwp/t639/ea/500hPa-hgt.html">
                    <value>高度场~http://image.nmc.cn~type~data.push\((\{*.*?\})\)~img_path~nmc_fore_t639_hgt</value>
                </entry>

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值