从指定文本中提取图片

1、代码:

package test;

public class GetImage {

 

//**
  * @param args
  *//*
 public static void main(String[] args) {

  String imgStr =  "<img   οnfοcus=/"a()/"   SRC=/"http://zi.csdn.net/20090x60_3.jpg/"  >";
  //String imgStr =  "<img   οnfοcus='a()'   SRC='http://zi.csdn.net/290x60_3.jpg'   οnclick='b()'   οnblur='()'>";
  
  if(isImgStr(imgStr)){
   System.out.println("IMG: " + img);
   System.out.println("OK: " + getImgStr());
  }
 }
 


  String img="";
 public   boolean isImgStr(String htmlStr){  
        
        java.util.regex.Pattern p_image;  
        java.util.regex.Matcher m_image;
        boolean flag = false;
        
        //图片链接地址,这种方式能得到图片地址,如果是本地的,就是不带http:开头的,也可以 
        String regEx_img = "<img(?:.*)src=(/"{1}|/'{1})([^//[^>]+[gif|jpg|jpeg|bmp|png]*)(/"{1}|/'{1})(?:.*)>";
        p_image = java.util.regex.Pattern.compile(regEx_img,java.util.regex.Pattern.CASE_INSENSITIVE);  
        m_image = p_image.matcher(htmlStr);  
        while(m_image.find()){  
            flag = true;
            img = img + "," + m_image.group();
           
        }
       
        return flag;
 }
 
 
 public   String getImgStr(){  
    
        int start = ((img.indexOf("src")==-1) ? (img.indexOf("SRC")) : (img.indexOf("src")));
        int isQuot = img.indexOf("/"", start);
       
        img = img.substring(start);
       

//考虑图片地址用双引号、单引号问题
        String imgs[] = (isQuot-start==4)?(img.split("/"", 3)):(img.split("'", 3));
        
            return imgs[1]; 
   }

}

2、总结:

很多时候我们需要从一段文本中提取出图片来单独处理,比如实现首页的图片轮换或者删除文章的时候需要对应的图片文件,以减少对空间的占用等,这段代码实现了从一段文本中提取出第一张图片的功能(多张的再修改一下),主要原理是采用正则表达式来找出图片,然后根据其中再提取出图片的真实地址

要在 WPS 检测指定文本提取出来,可以使用按键精灵提供的 OCR 功能,具体步骤如下: 1. 使用按键精灵打开 WPS 文档,并将焦点设置到需要检测的文本所在的页面; 2. 使用按键精灵提供的 OCR 函数,截取需要检测的文本所在的区域,并将其保存为图片文件; 3. 使用按键精灵提供的 OCR 函数,识别图片文本,并将结果保存在变量; 4. 使用按键精灵提供的字符串处理函数,对识别结果进行处理,提取出需要的文本。 下面是一个示例脚本,用于在 WPS 提取指定文本: ``` // 设置文档的焦点 SetFocus("WPS 文档的标题"); // 截取需要检测的文本所在的区域,并保存为图片文件 CaptureRegionToFile("图片保存路径", x, y, width, height); // 识别图片文本,并保存在变量 var text = OCR("图片保存路径"); // 对识别结果进行处理,提取出需要的文本 var targetText = "需要提取文本"; var startIndex = text.indexOf(targetText); if (startIndex >= 0) { var endIndex = startIndex + targetText.length; var extractedText = text.substring(endIndex); // 对提取出的文本进行处理 } ``` 其,`"WPS 文档的标题"` 是指 WPS 文档的窗口标题,可以使用按键精灵提供的其他函数获取窗口标题或句柄。`CaptureRegionToFile` 用于截取指定区域的屏幕截图并保存为图片文件,其 `(x, y)` 是截图区域的左上角坐标,`width` 和 `height` 是截图区域的宽度和高度。`OCR` 用于识别图片文本,并将识别结果保存在变量。`indexOf` 和 `substring` 用于在识别结果提取需要的文本,可以根据实际情况修改提取的逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值