Java中的爬虫

最新推荐文章于 2024-09-05 11:00:53 发布

_Aaron___

最新推荐文章于 2024-09-05 11:00:53 发布

阅读量51

点赞数

分类专栏： JAVA 文章标签： java 开发语言

本文链接：https://blog.csdn.net/long1_1/article/details/131017707

版权

41 篇文章 0 订阅

订阅专栏

本文介绍了Java中使用正则表达式进行文本匹配和爬虫的基本原理，包括Pattern和Matcher的使用，如find()方法、贪婪与非贪婪爬取模式，以及matches(),replaceAll()和split()等方法。同时讲解了捕获分组和非捕获分组的概念，帮助理解正则表达式的高级用法。

摘要由CSDN通过智能技术生成

pattern :表示正则表达式

Matcher:文本匹配器，作用按照正则表达式的规则去读取字符串，从头开始读取

获取正则表达式的对象

Pattern p=Pattern.compile(" 正则表达式");
获取文本匹配器的对象

String str="文本";

Matcher m=p.matcher(str);

p：规则，str：大串，m；文本匹配器的对象 m要在str中找符合p规则的小串
拿着文本匹配器从头开始读取，寻找是否满足规则的字串，如果没有，方法返回false。

如果有，返回true，在底层记录字串的起始索引和结束索引。 boolean b=m.find();
方法底层会根据find方法记录的索引进行字符串的截取。

SubString(起始索引，结束索引);包头不包尾

会把截取的小串进行返回

String sl=m.group();

System.out.println(sl);打印

例：abbbbbbb

贪婪爬取：ab+ --> abbbbbbb

非贪婪爬取：ab+？ --> ab

在数量词+*后面加上问号，就是非贪婪爬取

方法名	说明
public String [] matches(String regex)	判断字符串是否满足正则表达式的规则
public String replaceAll(String regex,String newStr)	按正则表达式的规则替换
public String split(String regex)	按照正则表达式的规则切割字符串