WebCrawler Java小爬爬 从入门到放弃 第三章

正则表达式:
我们已经会了最简单,也是最基础的如何提取网页内容。
接下来就是从中筛选我们想要的内容。

正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。
对regex先进行简单的了解,推荐一个网站:
http://tool.chinaz.com/regex/

Java里封装了两个类Pattern和Matcher,用于匹配正则表达式。
建议先看下API文档,推荐个博主写的关于这两个类的说明:
http://blog.csdn.net/cclovett/article/details/12448843

我们先进行一个简单的测试:
我们选择CSDN极客头条的第一个链接:
http://www.jianshu.com/p/d0aacb6f0455
然后用正则匹配我们想要的正文。
用FireFox打开链接,按F12如下图
正则匹配

然后敲代码 测试

import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class test {
    public test(){
        BufferedReader in = null;
        URL realURL;
        String urlContent = "";
        try {
            realURL = new URL("http://www.jianshu.com/p/d0aacb6f0455");
            //获取网页链接
            URLConnection connection = realURL.openConnection();  
            connection.connect(); 
            //缓冲流读入
            in = new BufferedReader(new InputStreamReader(  
                    connection.getInputStream(), "UTF-8"));
            String line;
            //用while循环将缓冲区内容写到字符串里
            while(null != (line = in.readLine())){urlContent += line;} 
            //进行正则匹配  正则语句: meta charset=\"(.+?)\"> 
            Pattern p = Pattern.compile("meta charset=\"(.+?)\">");
            Matcher m = p.matcher(urlContent);          
            m.find();
            //打印当前网页字符集格式
            System.out.println(realURL.toString()+" charset is " + m.group(1));
        } catch (MalformedURLException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }  
    }
    public static void main(String[] args){
        new test();
    }
}

测试完成。
了解下JS里的标记 有时候我们匹配的信息需要用控制符替换掉这些标记

博主十一要认真学学JS,有些地方有问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值