Java中正则表达式使用及从正则表达式中爬取信息

一、正则表达式

正则表达式可以用一些规定的字符来制定规则,并用来校验数据格式的合法性。

Java中的正则表达式规则:

1、字符类(默认匹配一个字符)

[abc]

只能是a,b或c

[^abc]

除了a,b,c之外的任何字符

[a-zA-Z]a到z A到Z
[a-d[m-p]]a到d,或m到p
[a-z&&[def]]d,e,f(交集)
[a-z&&[^bc]]

a到z,除了b和c

[a-z&&[^m-p]]a到z,除了m到p

2、预定义的字符类(默认匹配一个字符)

.任何字符
\d一个数字[0-9]
\D非数字[^0-9]
\s一个空白字符
\S非空白字符
\w英文、数字、下划线
\W[^\w]一个非单词字符

3、量词(配合匹配多个字符)

X?零次或一次
X*零次或多次
X+一次或多次
X{n}正好n次
X{n,}至少n次
X{n,m}至少n次但不超过m次

4、匹配一些特殊字符

"\"
''
+\\+
-\\-
(\\(
[\\[
\\\\\
|\\|
/\\/

另外,String类提供了匹配正则表达式规则的API:

public boolean matches(String regex):判断是否匹配正则表达式

接下来我们举一个例子:

我们要接收的字符串是这样的类型:“喜欢”(2)|“不喜欢”(0)|“无所谓”(1),其中用双引号括起来的文字部分是一个投票选项,长度不超过 5,其中不 允许出现空格;用括号括起来的数字是投票选项对应的分数,可以是正整数、0。双引号括起来的文字部分是一次投票活动的一个投票选项,后面紧接着跟的括号里面的数字是这个投票选项对应的分数。每个投票选项和对应的分数与下一个要用|分隔开,具体代码如下:

public static void check() {
	Scanner sc = new Scanner(System.in);
	while(true) {
		System.out.println("请输入投票类型");
		String str = sc.next();
		String regex = "(\"[\u4e00-\u9fa5]{1,5}\"\\(\\d\\)\\|)*\"[\u4e00-\uu9fa5]{1,5}\"\\(\\d\\)";//构造正则表达式规则
		if(str.matches(regex)) {
			System.out.println("输入正确");
			break;
		}
		else {
			System.out.println("格式错误,请重新输入");
		}
	}
	
}

运行结果如下:

 

二、从正则表达式中爬取信息

我们有时需要从正则表达式中获取一些信息,以上面的例子为例,输入一次投票活动的全部选项及其对应的分值,“喜欢”(2)|“不喜欢”(0)|“无所谓”(1),我们希望可以从中分别提取出投票选项和分值,具体代码如下:

public static void fetch() {
	String str = "\"喜欢\"(2)|\"不喜欢\"(1)|\"无所谓\"(0)";
	//定义爬取规则
	String regex1 = "[\u4e00-\\u9fa5]{1,5}";
	//编译正则表达式成为一个匹配的对象
	Pattern pattern1 = Pattern.compile(regex1);
	//通过匹配规则对象得到一个匹配数据内容的匹配器对象
	Matcher matcher1 = pattern1.matcher(str);
	//通过匹配器去内容中爬取信息
	while(matcher1.find()) {
		System.out.println(matcher1.group());
	}
}

运行结果如图:

 

从正则表达式中获取分值的操作和上面类似。 

 

 

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值