在研究了如何在scikit-learn中实现标记化之后,我们找到了这个正则表达式(source)。
token_pattern = r"(?u)\b\w\w+\b"
正则表达式非常简单,但是(?U)部分从未见过。有人可以告诉我这部分在做什么吗?
答案
该表达式打开
re.U
(re.UNICODE
)标志。
https://codeday.me/jp/qa/20190322/452983.html
(?iLmsux)
(一个或多个字母从集合
'i'
,'L'
,'m'
,'s'
,'u'
,'x'
。)的组相匹配的空字符串;字母设置相应的标志:re.I
(忽略大小写),re.L
(与当前位置有关),re.M
(多线),(re.S
点匹配所有) ,re.U
(取决于Unicode)和re.X
(详细)(对于整个正则表达式)(标志在模块内容中进行了描述。)如果希望将标志包括在正则表达式中,而不是传递标志参数,则这很有用。收件人re.compile()
功能。