在短信等其它文本中,经常会出现一些网址,可以通过正则提取。
1、python
import re
# 所有网址的正则
url_compile=re.compile("[http://|ftp://|https://|www]?[^\u4e00-\u9fa5\s]*?\.[com|net|cn|me|tw|fr][^\u4e00-\u9fa5\s]*")
result1=url_compile.findall("这是一条测试的文本,速戳→ sq.jx.com/j/JhBnddy")
print(result)
2、Java
import java.util.regex.*;
public class UrlMatcher {
public static void main(String[] args) {
String messages="这是一条测试文本,速戳→ sq.jx.com/j/JhBnddy";
String regex = "(http://|ftp://|https://|www)?[^\u4e00-\u9fa5\\s]*?\\.(com|net|cn|me|tw|fr)[^\u4e00-\u9fa5\\s]*";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(messages);
while (m.find()) {
String sub = messages.substring(m.start(), m.end());
System.out.println(sub);
}
}
}