我正在尝试使用php中的正则表达式来匹配base64编码的块。 它以'Content-Transfer-Encoding: base64'开头,因此我希望可以在此之后匹配内容,但是下面的正则表达式无法正常工作。 请帮助我修复此正则表达式以匹配base64块。 在电子邮件正文中,base64块被重复两次,我假设第一个块是文本版本,第二个html。 我想匹配两个base 64块,这就是为什么我使用preg匹配所有而不匹配文本的中间部分的原因。
这是我到目前为止的代码
$regex = '/Content-Transfer-Encoding:\\sbase64\\s\
(.*?)/';
preg_match_all($regex, $message, $matches);
这是消息:
Content-Transfer-Encoding: base64
DQoNCg0KDQoNCg0KDQoNCg0KDQpbQiZRXTxodHRwOi8vd3d3LmRpeS5jb20+DQoNCg0KDQoNCg0K
W2h0dHA6Ly9raW5nZmlzaGVyLnNjZW5lNy5jb20vaXMvaW1hZ2UvS2luZ2Zpc2hlci9pY29uX3N0
b3JlX2xvY2F0b3I/d2lkPTM2JmhlaT0zNiZxbHQ9MTAwXTxodHRwOi8vd3d3LmRpeS5jb20vZmlu
ZC1hLXN0b3JlPg0KDQoNCg0KRmluZCBhIHN0b3JlPGh0dHA6Ly93d3cuZGl5LmNvbS9maW5kLWEt
c3RvcmU+DQoNCg0KDQoNCkN1c3RvbWVyIFNlcnZpY2VzDQoNCjAzMzMgMDE0IDMzNTcNCg0KDQoN
Cg0KDQoNCg0KDQoNCkluc3BpcmF0aW9uPGh0dHA6Ly93d3cuZGl5LmNvbS9pbnNwaXJhdGlvbi8w
Lmlyb290Pg0KDQpQcm9qZWN0czxodHRwOi8vd3d3LmRpeS5jb20vcHJvamVjdHMvMi5wcm9vdD4N
Cg0KU2hvcDxodHRwOi8vd3d3LmRpeS5jb20vc2hvcC8+DQoNCkhlbHAgJiBBZHZpY2U8aHR0cDov
L3d3dy5kaXkuY29tL2hlbHAtYWR2aWNlLzEuaHJvb3Q+DQoNCk15IGFjY291bnQ8aHR0cDovL3d3
dy5kaXkuY29tL2N1c3RvbWVyL215X2FjY291bnQvPg0KDQoNCg0KDQoNCg0KDQoNCg0KRGVhciBC
ZW4gUGF0b24NCg0KDQoNCg0KVGhhbmsgeW91IGZvciB5b3VyIG9yZGVyDQoNCg0KDQoNCg0KT3Jk
ZXIgbnVtYmVyOg0KDQowMDYzMTA5MDU1DQoNCg0KDQpUb3RhbCBDb3N0Og0KDQrCozMuMjcNCg0K
DQoNClRoYW5rIHlvdSBmb3Igb3JkZXJpbmcgZnJvbSBCJlEuIFlvdeKAmWxsIGZpbmQgZGV0YWls
cyBvZiB5b3VyIG9yZGVyIGFuZCBkZWxpdmVyeSBvciBjb2xsZWN0aW9uIGluZm9ybWF0aW9uIGJl
bG93LiBGb3IgaGVscCB3aXRoIHF1ZXN0aW9ucyBhYm91dCBvdXIgc2VydmljZSwgcGxlYXNlIHNl
--_000_D16F6E4A2986D34F9D752E3564EAC46F51043449APP1198ghakfplc_
Content-Type: text/html; charset="utf-8"
Content-Transfer-Encoding: base64
PGh0bWwgeG1sbnM6dj0idXJuOnNjaGVtYXMtbWljcm9zb2Z0LWNvbTp2bWwiIHhtbG5zOm89InVy
bjpzY2hlbWFzLW1pY3Jvc29mdC1jb206b2ZmaWNlOm9mZmljZSIgeG1sbnM6dz0idXJuOnNjaGVt
YXMtbWljcm9zb2Z0LWNvbTpvZmZpY2U6d29yZCIgeG1sbnM6bT0iaHR0cDovL3NjaGVtYXMubWlj
cm9zb2Z0LmNvbS9vZmZpY2UvMjAwNC8xMi9vbW1sIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcv
使用.*而不是.*?和s标志将.与新行匹配:-regex101.com/r/eM4hB3/1
听@ rock321987,但是在此之前,请添加更多有关整个上下文的详细信息?
这应该工作
/Content-Transfer-Encoding:\\sbase64\\s+(.*)(?=Content-Transfer-Encoding: base64|$)/g
正则表达式演示
PHP代码
$re ="/Content-Transfer-Encoding:\\\\sbase64\\\\s+(.*)(?=Content-Transfer-Encoding: base64|$)/";
$str ="Content-Transfer-Encoding: base64\\DQoNCg0KDQoNCg0KDQoNCg0KDQpbQiZRXTxodHRwOi8vd3d3LmRpeS5jb20+DQoNCg0KDQoNCg0K W2h0dHA6Ly9raW5nZmlzaGVyLnNjZW5lNy5jb20vaXMvaW1hZ2UvS2luZ2Zpc2hlci9pY29uX3N0 b3JlX2xvY2F0b3I/d2lkPTM2JmhlaT0zNiZxbHQ9MTAwXTxodHRwOi8vd3d3LmRpeS5jb20vZmlu ZC1hLXN0b3JlPg0KDQoNCg0KRmluZCBhIHN0b3JlPGh0dHA6Ly93d3cuZGl5LmNvbS9maW5kLWEt c3RvcmU+DQoNCg0KDQoNCkN1c3RvbWVyIFNlcnZpY2VzDQoNCjAzMzMgMDE0IDMzNTcNCg0KDQoN Cg0KDQoNCg0KDQoNCkluc3BpcmF0aW9uPGh0dHA6Ly93d3cuZGl5LmNvbS9pbnNwaXJhdGlvbi8w Lmlyb290Pg0KDQpQcm9qZWN0czxodHRwOi8vd3d3LmRpeS5jb20vcHJvamVjdHMvMi5wcm9vdD4N Cg0KU2hvcDxodHRwOi8vd3d3LmRpeS5jb20vc2hvcC8+DQoNCkhlbHAgJiBBZHZpY2U8aHR0cDov L3d3dy5kaXkuY29tL2hlbHAtYWR2aWNlLzEuaHJvb3Q+DQoNCk15IGFjY291bnQ8aHR0cDovL3d3 dy5kaXkuY29tL2N1c3RvbWVyL215X2FjY291bnQvPg0KDQoNCg0KDQoNCg0KDQoNCg0KRGVhciBC ZW4gUGF0b24NCg0KDQoNCg0KVGhhbmsgeW91IGZvciB5b3VyIG9yZGVyDQoNCg0KDQoNCg0KT3Jk ZXIgbnVtYmVyOg0KDQowMDYzMTA5MDU1DQoNCg0KDQpUb3RhbCBDb3N0Og0KDQrCozMuMjcNCg0K DQoNClRoYW5rIHlvdSBmb3Igb3JkZXJpbmcgZnJvbSBCJlEuIFlvdeKAmWxsIGZpbmQgZGV0YWls cyBvZiB5b3VyIG9yZGVyIGFuZCBkZWxpdmVyeSBvciBjb2xsZWN0aW9uIGluZm9ybWF0aW9uIGJl bG93LiBGb3IgaGVscCB3aXRoIHF1ZXN0aW9ucyBhYm91dCBvdXIgc2VydmljZSwgcGxlYXNlIHNl--_000_D16F6E4A2986D34F9D752E3564EAC46F51043449APP1198ghakfplc_ Content-Type: text/html; charset=\"utf-8\" Content-Transfer-Encoding: base64\\PGh0bWwgeG1sbnM6dj0idXJuOnNjaGVtYXMtbWljcm9zb2Z0LWNvbTp2bWwiIHhtbG5zOm89InVy bjpzY2hlbWFzLW1pY3Jvc29mdC1jb206b2ZmaWNlOm9mZmljZSIgeG1sbnM6dz0idXJuOnNjaGVt YXMtbWljcm9zb2Z0LWNvbTpvZmZpY2U6d29yZCIgeG1sbnM6bT0iaHR0cDovL3NjaGVtYXMubWlj cm9zb2Z0LmNvbS9vZmZpY2UvMjAwNC8xMi9vbW1sIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcv\";
preg_match_all($re, $str, $matches);
print_r($matches[1]);
Ideone演示
$matches是一个数组数组。
$matches[0]包含所有匹配的值,包括Content-Transfer-Encoding:\\\\sbase64\\\\s+。
$matches[1]包含在Content-Transfer-Encoding:\\\\sbase64\\\\s+之后匹配的所有值
他所需要做的就是删除?。而已。
@ sweaver2112等待..实际上需要s修饰符将.匹配到换行符
删除?因为\ s \ n序列与那里的换行符都匹配,所以单独使用是可行的。 (\ s匹配换行符!)-但这不太可能发生或非常明显。您的回答很好。+ 1
@ sweaver2112你是对的..实际上有些问题使我感到困惑
@ sweaver2112我从OPs正则表达式中删除了\,并自欺欺人
老实说,我不知道\ s与换行符匹配,并且对于为什么只删除?也感到困惑。甚至都没有工作
抱歉,我编辑了该问题,以在base64重复两次时添加更多上下文。
@BenPaton您想同时捕获它们吗?
是的,两者都捕获,然后在base64部分之后都停止,我需要它在php中工作。我发现从regex101到php并不总是有效。
@BenPaton我已经更新了答案,但您的评论让我感到困惑。您想要Content-Transfer-Encoding: base64还是Content-Transfer-Encoding: base64之后的字符串?
我要同时使用base64块和其他任何东西
@BenPaton请参阅ideone演示。.$matches[1][0]包含第一个匹配项,$matches[1][1]包含第二个匹配项
不幸的是,这在我的环境中不起作用,因此我必须解决一些差异
@BenPaton你能告诉你你面临什么问题吗?
它只是找不到任何匹配项
@BenPaton这怎么可能?如果正确使用它应该可以工作
正则表达式现在似乎有点太复杂了。如果您能给我一个正则表达式,使其与第一个base64编码的块匹配,然后在到达空白时弯下腰来捕获,我将不胜感激。
@BenPaton在询问直到第一个空格之前,然后检查它:-regex101.com/r/eM4hB3/8不用担心那里的输入..您可以自己尝试尝试并告诉
试试这个:
preg_match_all('/Content-Transfer-Encoding: base64\\s+(.*?)$/', $subject, $result, PREG_PATTERN_ORDER);
$baseString = $result[1][0];
正则表达式说明:
Content-Transfer-Encoding: base64\\s+(.*?)$
Options: Casesensitive; Exactspacing; Dotdoesn’tmatchlinebreaks; ^$don’tmatchatlinebreaks; Greedyquantifiers
Match the character string"Content-Transfer-Encoding: base64" literally (case sensitive) ?Content-Transfer-Encoding: base64?
Match a single character that is a"whitespace character" (any Unicode separator, tab, line feed, carriage return, vertical tab, form feed, next line) ?\\s+?
Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?
Match the regex below and capture its match into backreference number 1 ?(.*?)?
Match any single character that is NOT a line break character (line feed) ?.*??
Between zero and unlimited times, as few times as possible, expanding as needed (lazy) ?*??
Assert position at the end of the string, or before the line break at the end of the string, if any (line feed) ?$?
正则演示:
https://regex101.com/r/lI8lJ6/1
实时PHP演示:
http://ideone.com/fK3z3n
更新:
根据您的评论,您可以使用此正则表达式捕获并验证base64字符串:
^(?:[A-Za-z0-9+/]{4})*(?:[A-Za-z0-9+/]{2}==|[A-Za-z0-9+/]{3}=)?$
SRC:https://stackoverflow.com/a/475217/797495
抱歉,我编辑了该问题,以在base64重复两次时添加更多上下文。
您需要哪个base64?第一还是第二?第二个似乎不是有效的base64字符串。
我需要捕获两个,然后在两个的base64部分之后停止,我需要它在php中工作。第二个可能无效,因为它只是其中的一小部分。我不想把整个事情都拖长了,它包含我不应该在这里分享的信息。
您可以使用有效的语法将base64字符串的内容更改为伪造的内容。没有有效的示例,我无法进一步帮助您。
实际上,所有基数为64的字符串都不有效。检查我的更新
这是一个有效的例子,我已经切断了它。
该正则表达式通过警告发出了此错误消息:preg_match_all():未知修饰符]