用Jsoup进行链接提取

项目用到对文章内的图片和附件连接进行提取

// 检索WebContent中的图片和附件
			Document doc = Jsoup.parse(info.getWebc().getWebContent());
			// 当前页中的图片
			Elements srcLinks = doc.select("img[src]");
			String imagesPath = "";
			for (Element link : srcLinks) {
				// 剔除标签,只剩链接路径
				String imagesPaths = link.attr("src");
				String ht = imagesPaths.substring(0, 4);
				String htt = imagesPaths.substring(0, 1);
				if (!ht.equals("http") && htt.equals("/")) {
					imagesPath = imagesPaths.trim().replaceAll(ContextPath, "");
					imagesPath = imagesPath.substring(imagesPath.lastIndexOf("/") + 1);
				} else {
					imagesPath = "";
				}
				//System.out.println("---导入WebContent中的图片---" + imagesPath);
				if (!imagesPath.equals("")) {
					importCopy("/html/"+strSiteID+"/"+strColumnID+"/"+keyID+"/"+imagesPath, path, strInfoID,"/html/"+strSiteID+"/"+strColumnID+"/"+keyID+"/");
				}
			}
			// 提取所有的href连接
			String filePaths = "";
			Elements linehrefs = doc.select("a[href]");
			for (Element link : linehrefs) {
				filePaths = link.attr("href").trim().replaceAll(ContextPath, "");
				filePaths = filePaths.substring(filePaths.lastIndexOf("/") + 1);
				//System.out.println("---导入WebContent中的文件---" + filePaths);
				if (!filePaths.equals("")) {
					importCopy("/html/"+strSiteID+"/"+strColumnID+"/"+keyID+"/"+filePaths, path, strInfoID,"/html/"+strSiteID+"/"+strColumnID+"/"+keyID+"/");
				}
			}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值