一:背景
前段时间利用爬虫,爬取了网页中的数据,爬取成功后在使用时,发现爬取的html中有一段:
<script language="javascript">getClickTimes(3595155,1507573501,"wbnewsfile","attach")</script>
二:编写代码
爬取的html单纯只是展示样式及文字,要求把这段代码去掉
String regex = "<script.*?>(.*?)</script>";
//elements.toString():代表去除的html,使用时需替换自己的
String string = elements.toString();
Pattern p_script = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
Matcher m_script = p_script.matcher(string);
string = m_script.replaceAll("");
测试:
public static void main(String[] args) throws Exception {
String string = "测<script s>ss</script><script s>ss</script><script s>ss</script>试";
String regex = "<script.*?>(.*?)</script>";
Pattern p_script = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
Matcher m_script = p_script.matcher(string);
string = m_script.replaceAll("");
System.out.println(string);
}
控制台:
ps : 我这不需要这个标签所有把他替换为空
这个也不只是script标签,其他的自行测试