java-去除html中的标签或者元素属性(正则表达式/jsoup)
如某网站历史数据中有很多富文本编辑器编辑的新闻稿,里面定义了很多行内样式,现开发了新网站,统一定义了样式,进行数据迁移时需要去除这些行内样式,但保留标签。//定义script的正则表达式{或]*?>[\\s\\S]*?//定义style的正则表达式{或]*?>[\\s\\S]*?//img标签保留属性,可进一步处理删除无用属性,仅保留src等必要属性。//a标签保留属性,可进一步处理删除无用属性,仅保留href等必要属性。//定义HTML标签的正则表达式。
原创
2023-12-15 11:00:14 ·
142 阅读 ·
0 评论