php正则去除base64,使用PHP preg_match_all的正则表达式base64块

我正在尝试使用php中的正则表达式来匹配base64编码的块。 它以'Content-Transfer-Encoding: base64'开头,因此我希望可以在此之后匹配内容,但是下面的正则表达式无法正常工作。 请帮助我修复此正则表达式以匹配base64块。 在电子邮件正文中,base64块被重复两次,我假设第一个块是文本版本,第二个html。 我想匹配两个base 64块,这就是为什么我使用preg匹配所有而不匹配文本的中间部分的原因。

这是我到目前为止的代码

$regex = '/Content-Transfer-Encoding:\\sbase64\\s\

(.*?)/';

preg_match_all($regex, $message, $matches);

这是消息:

Content-Transfer-Encoding: base64

DQoNCg0KDQoNCg0KDQoNCg0KDQpbQiZRXTxodHRwOi8vd3d3LmRpeS5jb20+DQoNCg0KDQoNCg0K

W2h0dHA6Ly9raW5nZmlzaGVyLnNjZW5lNy5jb20vaXMvaW1hZ2UvS2luZ2Zpc2hlci9pY29uX3N0

b3JlX2xvY2F0b3I/d2lkPTM2JmhlaT0zNiZxbHQ9MTAwXTxodHRwOi8vd3d3LmRpeS5jb20vZmlu

ZC1hLXN0b3JlPg0KDQoNCg0KRmluZCBhIHN0b3JlPGh0dHA6Ly93d3cuZGl5LmNvbS9maW5kLWEt

c3RvcmU+DQoNCg0KDQoNCkN1c3RvbWVyIFNlcnZpY2VzDQoNCjAzMzMgMDE0IDMzNTcNCg0KDQoN

Cg0KDQoNCg0KDQoNCkluc3BpcmF0aW9uPGh0dHA6Ly93d3cuZGl5LmNvbS9pbnNwaXJhdGlvbi8w

Lmlyb290Pg0KDQpQcm9qZWN0czxodHRwOi8vd3d3LmRpeS5jb20vcHJvamVjdHMvMi5wcm9vdD4N

Cg0KU2hvcDxodHRwOi8vd3d3LmRpeS5jb20vc2hvcC8+DQoNCkhlbHAgJiBBZHZpY2U8aHR0cDov

L3d3dy5kaXkuY29tL2hlbHAtYWR2aWNlLzEuaHJvb3Q+DQoNCk15IGFjY291bnQ8aHR0cDovL3d3

dy5kaXkuY29tL2N1c3RvbWVyL215X2FjY291bnQvPg0KDQoNCg0KDQoNCg0KDQoNCg0KRGVhciBC

ZW4gUGF0b24NCg0KDQoNCg0KVGhhbmsgeW91IGZvciB5b3VyIG9yZGVyDQoNCg0KDQoNCg0KT3Jk

ZXIgbnVtYmVyOg0KDQowMDYzMTA5MDU1DQoNCg0KDQpUb3RhbCBDb3N0Og0KDQrCozMuMjcNCg0K

DQoNClRoYW5rIHlvdSBmb3Igb3JkZXJpbmcgZnJvbSBCJlEuIFlvdeKAmWxsIGZpbmQgZGV0YWls

cyBvZiB5b3VyIG9yZGVyIGFuZCBkZWxpdmVyeSBvciBjb2xsZWN0aW9uIGluZm9ybWF0aW9uIGJl

bG93LiBGb3IgaGVscCB3aXRoIHF1ZXN0aW9ucyBhYm91dCBvdXIgc2VydmljZSwgcGxlYXNlIHNl

--_000_D16F6E4A2986D34F9D752E3564EAC46F51043449APP1198ghakfplc_

Content-Type: text/html; charset="utf-8"

Content-Transfer-Encoding: base64

PGh0bWwgeG1sbnM6dj0idXJuOnNjaGVtYXMtbWljcm9zb2Z0LWNvbTp2bWwiIHhtbG5zOm89InVy

bjpzY2hlbWFzLW1pY3Jvc29mdC1jb206b2ZmaWNlOm9mZmljZSIgeG1sbnM6dz0idXJuOnNjaGVt

YXMtbWljcm9zb2Z0LWNvbTpvZmZpY2U6d29yZCIgeG1sbnM6bT0iaHR0cDovL3NjaGVtYXMubWlj

cm9zb2Z0LmNvbS9vZmZpY2UvMjAwNC8xMi9vbW1sIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcv

使用.*而不是.*?和s标志将.与新行匹配:-regex101.com/r/eM4hB3/1

听@ rock321987,但是在此之前,请添加更多有关整个上下文的详细信息?

这应该工作

/Content-Transfer-Encoding:\\sbase64\\s+(.*)(?=Content-Transfer-Encoding: base64|$)/g

正则表达式演示

PHP代码

$re ="/Content-Transfer-Encoding:\\\\sbase64\\\\s+(.*)(?=Content-Transfer-Encoding: base64|$)/";

$str ="Content-Transfer-Encoding: base64\\DQoNCg0KDQoNCg0KDQoNCg0KDQpbQiZRXTxodHRwOi8vd3d3LmRpeS5jb20+DQoNCg0KDQoNCg0K W2h0dHA6Ly9raW5nZmlzaGVyLnNjZW5lNy5jb20vaXMvaW1hZ2UvS2luZ2Zpc2hlci9pY29uX3N0 b3JlX2xvY2F0b3I/d2lkPTM2JmhlaT0zNiZxbHQ9MTAwXTxodHRwOi8vd3d3LmRpeS5jb20vZmlu ZC1hLXN0b3JlPg0KDQoNCg0KRmluZCBhIHN0b3JlPGh0dHA6Ly93d3cuZGl5LmNvbS9maW5kLWEt c3RvcmU+DQoNCg0KDQoNCkN1c3RvbWVyIFNlcnZpY2VzDQoNCjAzMzMgMDE0IDMzNTcNCg0KDQoN Cg0KDQoNCg0KDQoNCkluc3BpcmF0aW9uPGh0dHA6Ly93d3cuZGl5LmNvbS9pbnNwaXJhdGlvbi8w Lmlyb290Pg0KDQpQcm9qZWN0czxodHRwOi8vd3d3LmRpeS5jb20vcHJvamVjdHMvMi5wcm9vdD4N Cg0KU2hvcDxodHRwOi8vd3d3LmRpeS5jb20vc2hvcC8+DQoNCkhlbHAgJiBBZHZpY2U8aHR0cDov L3d3dy5kaXkuY29tL2hlbHAtYWR2aWNlLzEuaHJvb3Q+DQoNCk15IGFjY291bnQ8aHR0cDovL3d3 dy5kaXkuY29tL2N1c3RvbWVyL215X2FjY291bnQvPg0KDQoNCg0KDQoNCg0KDQoNCg0KRGVhciBC ZW4gUGF0b24NCg0KDQoNCg0KVGhhbmsgeW91IGZvciB5b3VyIG9yZGVyDQoNCg0KDQoNCg0KT3Jk ZXIgbnVtYmVyOg0KDQowMDYzMTA5MDU1DQoNCg0KDQpUb3RhbCBDb3N0Og0KDQrCozMuMjcNCg0K DQoNClRoYW5rIHlvdSBmb3Igb3JkZXJpbmcgZnJvbSBCJlEuIFlvdeKAmWxsIGZpbmQgZGV0YWls cyBvZiB5b3VyIG9yZGVyIGFuZCBkZWxpdmVyeSBvciBjb2xsZWN0aW9uIGluZm9ybWF0aW9uIGJl bG93LiBGb3IgaGVscCB3aXRoIHF1ZXN0aW9ucyBhYm91dCBvdXIgc2VydmljZSwgcGxlYXNlIHNl--_000_D16F6E4A2986D34F9D752E3564EAC46F51043449APP1198ghakfplc_ Content-Type: text/html; charset=\"utf-8\" Content-Transfer-Encoding: base64\\PGh0bWwgeG1sbnM6dj0idXJuOnNjaGVtYXMtbWljcm9zb2Z0LWNvbTp2bWwiIHhtbG5zOm89InVy bjpzY2hlbWFzLW1pY3Jvc29mdC1jb206b2ZmaWNlOm9mZmljZSIgeG1sbnM6dz0idXJuOnNjaGVt YXMtbWljcm9zb2Z0LWNvbTpvZmZpY2U6d29yZCIgeG1sbnM6bT0iaHR0cDovL3NjaGVtYXMubWlj cm9zb2Z0LmNvbS9vZmZpY2UvMjAwNC8xMi9vbW1sIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcv\";

preg_match_all($re, $str, $matches);

print_r($matches[1]);

Ideone演示

$matches是一个数组数组。

$matches[0]包含所有匹配的值,包括Content-Transfer-Encoding:\\\\sbase64\\\\s+。

$matches[1]包含在Content-Transfer-Encoding:\\\\sbase64\\\\s+之后匹配的所有值

他所需要做的就是删除?。而已。

@ sweaver2112等待..实际上需要s修饰符将.匹配到换行符

删除?因为\ s \ n序列与那里的换行符都匹配,所以单独使用是可行的。 (\ s匹配换行符!)-但这不太可能发生或非常明显。您的回答很好。+ 1

@ sweaver2112你是对的..实际上有些问题使我感到困惑

@ sweaver2112我从OPs正则表达式中删除了\,并自欺欺人

老实说,我不知道\ s与换行符匹配,并且对于为什么只删除?也感到困惑。甚至都没有工作

抱歉,我编辑了该问题,以在base64重复两次时添加更多上下文。

@BenPaton您想同时捕获它们吗?

是的,两者都捕获,然后在base64部分之后都停止,我需要它在php中工作。我发现从regex101到php并不总是有效。

@BenPaton我已经更新了答案,但您的评论让我感到困惑。您想要Content-Transfer-Encoding: base64还是Content-Transfer-Encoding: base64之后的字符串?

我要同时使用base64块和其他任何东西

@BenPaton请参阅ideone演示。.$matches[1][0]包含第一个匹配项,$matches[1][1]包含第二个匹配项

不幸的是,这在我的环境中不起作用,因此我必须解决一些差异

@BenPaton你能告诉你你面临什么问题吗?

它只是找不到任何匹配项

@BenPaton这怎么可能?如果正确使用它应该可以工作

正则表达式现在似乎有点太复杂了。如果您能给我一个正则表达式,使其与第一个base64编码的块匹配,然后在到达空白时弯下腰来捕获,我将不胜感激。

@BenPaton在询问直到第一个空格之前,然后检查它:-regex101.com/r/eM4hB3/8不用担心那里的输入..您可以自己尝试尝试并告诉

试试这个:

preg_match_all('/Content-Transfer-Encoding: base64\\s+(.*?)$/', $subject, $result, PREG_PATTERN_ORDER);

$baseString = $result[1][0];

正则表达式说明:

Content-Transfer-Encoding: base64\\s+(.*?)$

Options: Casesensitive; Exactspacing; Dotdoesn’tmatchlinebreaks; ^$don’tmatchatlinebreaks; Greedyquantifiers

Match the character string"Content-Transfer-Encoding: base64" literally (case sensitive) ?Content-Transfer-Encoding: base64?

Match a single character that is a"whitespace character" (any Unicode separator, tab, line feed, carriage return, vertical tab, form feed, next line) ?\\s+?

Between one and unlimited times, as many times as possible, giving back as needed (greedy) ?+?

Match the regex below and capture its match into backreference number 1 ?(.*?)?

Match any single character that is NOT a line break character (line feed) ?.*??

Between zero and unlimited times, as few times as possible, expanding as needed (lazy) ?*??

Assert position at the end of the string, or before the line break at the end of the string, if any (line feed) ?$?

正则演示:

https://regex101.com/r/lI8lJ6/1

实时PHP演示:

http://ideone.com/fK3z3n

更新:

根据您的评论,您可以使用此正则表达式捕获并验证base64字符串:

^(?:[A-Za-z0-9+/]{4})*(?:[A-Za-z0-9+/]{2}==|[A-Za-z0-9+/]{3}=)?$

SRC:https://stackoverflow.com/a/475217/797495

抱歉,我编辑了该问题,以在base64重复两次时添加更多上下文。

您需要哪个base64?第一还是第二?第二个似乎不是有效的base64字符串。

我需要捕获两个,然后在两个的base64部分之后停止,我需要它在php中工作。第二个可能无效,因为它只是其中的一小部分。我不想把整个事情都拖长了,它包含我不应该在这里分享的信息。

您可以使用有效的语法将base64字符串的内容更改为伪造的内容。没有有效的示例,我无法进一步帮助您。

实际上,所有基数为64的字符串都不有效。检查我的更新

这是一个有效的例子,我已经切断了它。

该正则表达式通过警告发出了此错误消息:preg_match_all():未知修饰符]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值