java非法字符 u007f_groovy regex非法字符

最新推荐文章于 2023-05-10 17:20:22 发布

可怕的程序员思维

最新推荐文章于 2023-05-10 17:20:22 发布

阅读量702

点赞数

文章标签： java非法字符 u007f

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35642587/article/details/114542744

版权

作者分享了在Groovy脚本中遇到的问题，即如何使用正则表达式移除XML不合法字符，如特殊控制字符。代码在测试工具中正常工作，但在Groovy中编译出现错误。文章探讨了可能的原因和解决办法，包括代码调整和问题排查过程。

摘要由CSDN通过智能技术生成

我有一个groovy脚本,它将一些格式很差的数据转换为XML。这部分工作得很好,但它也很高兴地传递了一些在XML中不合法的字符。所以我添加了一些代码来去掉这些,这就是问题的根源所在。

未编译的代码如下:

def illegalChars = ~/[\u0000-\u0008]|[\u000B-\u000C]|[\u000E-\u001F]|[\u007F-\u009F]/

我想知道的是,为什么?我在这里做错什么了?我在里面测试了这个regex

http://regexpal.com/

它按预期工作,但在groovy中编译它时出错:

[错误]生成错误

[信息]——————————————————————————————————————————————————————————————————————————————————————————————————————————————-

[信息]行23:26:意外字符:0x0

上面的行是

line 23

. 周围的行只是变量声明,我在使用regex时没有更改。

谢谢!

更新:

代码可以编译,但并不像我预期的那样进行过滤。

在regexpal中,我放置了regex:

[\u0000-\u0008\u000b-\u000c\u000e-\u001f\u007f-\u009f]

测试数据:

name='lang'>ECHEMICAL IMMUNOLOGY AND ALLERGY

72-883146.757500

name='pubc'>47

1NUMBER

Dvorak, A.KARGER

name='rr'>GBP013.51

1660-2242

name='class1'>TS

S

name='class2'>616.079

Subcellular Localization of the

Cytokines, Basic Fibroblast Growth Factor and Tumor Necrosis Factor- in Mast

CellsRN170369808VOL 85

2005E

name='title'>CHEMICAL IMMUNOLOGY AND ALLERGY

name='page'>89-97

3146.757500

name='pubc'>47

1

这是从一个包含非法字符的文件中进行的抓取,所以有点随机。但是regexpal只突出显示了非法字符,但是在groovy中,它甚至用空字符串替换了“”字符,因此它基本上消灭了整个文档。

代码段:

def List parseFile(File file){

println "reading File name: ${file.name}"

def lineCount = 0

List data = new ArrayList()

file.eachLine {

String input ->

lineCount ++

String line = input

if(input =~ illegalChars){

line = input.replaceAll(illegalChars, " ")

}

Map document = new HashMap()

elementNames.each(){

token ->

def val = getValue(line, token)

if(val != null){

if(token.equals("ISSUE")){

List entries = val.split(";")

document.putAt("year",entries.getAt(0).trim())

if(entries.size() > 1){

document.putAt("volume", entries.getAt(1).trim())

}

if(entries.size() > 2){

document.putAt("issue", entries.getAt(2).trim())

}

} else {

document.putAt(token, val)

}

}

}

data.add(document)

}

println "done"

return data

}

我看不出这两个人有什么不同的行为;我是不是错过了什么?

再一次,谢谢!

可怕的程序员思维

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java非法字符 u007f_groovy regex非法字符

我有一个groovy脚本,它将一些格式很差的数据转换为XML。这部分工作得很好,但它也很高兴地传递了一些在XML中不合法的字符。所以我添加了一些代码来去掉这些,这就是问题的根源所在。未编译的代码如下:def illegalChars = ~/[\u0000-\u0008]|[\u000B-\u000C]|[\u000E-\u001F]|[\u007F-\u009F]/我想知道的是,为什么?我在这里...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。