java爬虫简单实例

爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。
/*
* 获取
* 将正则规则进行对象的封装。 
* Pattern p = Pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher .
* Matcher m = p.matcher("aaaaab");
* //通过Matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/
package com.js.ai.modules.pointwall.testxfz; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Spider { public static List<String> getMailsByWeb() throws IOException{ //1,读取源文件。 URL url=new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html"); BufferedReader bufr=new BufferedReader(new InputStreamReader(url.openStream())); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\\w+@\\w+(\\.\\w+)+"; List<String> list=new ArrayList<String>(); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } public static List<String> getMails() throws IOException{ //1,读取源文件。 BufferedReader bufr=new BufferedReader(new FileReader("c:\\mail.html")); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\\w+@\\w+(\\.\\w+)+"; List<String> list = new ArrayList<String>(); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } public static void main(String[] args) throws IOException { // List<String> list = getMails(); // for(String mail : list){ // System.out.println(mail); // } List<String> list=getMailsByWeb(); for(String mail:list){ System.out.println(mail); } } }

  

转载于:https://www.cnblogs.com/ipetergo/p/6934684.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值