java 正则 抓取数据

刚开始不太熟悉正则,在网上搜了下资料,开始了正则的测试之后,终于可以抓取内容了

package com.test;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Arrays;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 抓取短信居的搞笑短信
 * http://www.dxju.com/dxw/gxdx/
 * */
public class Testdxju {

	/**
	 * 提取超链接里面的文本
	 * */
	public static String getRequestData(String urlStr) throws Exception{
		URL url = new URL(urlStr);
		HttpURLConnection urlConn =( HttpURLConnection) url.openConnection();
		int code = urlConn.getResponseCode();
		StringBuffer sb = new StringBuffer("");
		if(code == 200){
			BufferedReader br = new BufferedReader(new InputStreamReader(urlConn.getInputStream(),"gb2312"));
			String str = null;
			while((str = br.readLine()) != null){
				//查看网页源代码之后,里面有多个表格,写此正则之后,就只有一个table了
				String regex2 = "<table.*>.*</table>";
				Pattern pt = Pattern.compile(regex2);
				Matcher mt = pt.matcher(str);
				while(mt.find()){
					//下面就是针对上面的table提取多个url
					String s = mt.group();
					System.out.println(s);
					String regex3 = ">(\\W*)$";//获取文本
					Pattern pt3 = Pattern.compile(regex3);
					String[] strArray = s.split("<[/]a>");//先将字符串以</a>分为字符串数组
					for(String sss:strArray){
						Matcher mt3 = pt3.matcher(sss);
						if(mt3.find()){
							System.out.println(mt3.group(1));
						}
					}
				}
				sb.append(str+"\r\n");
			}
		}
		return sb.toString();
	}
	public static void main(String[] args) {
		try {
			getRequestData("http://www.dxju.com/dxw/gxdx/");
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

说下自己刚学到的几个正则里面比较重要的几点

字符串例子 String str="<table><tr><td>aaaaa</td></tr><tr><td>bbbbb</td></tr></table>";

1:重复的标记需要用split来获取成数组再匹配正则:比如table里面会有很多的td,我们需要td里的文本,则先将这个字符串以</td>这个标记来切割字符串,变成一个字符串数组

那么上面的str 经过split("<[/]td>")之后就变成<table><tr><td>aaaaa 和</tr><tr><td>bbbbb </tr></table> 三个字符串

在用正则表达式截取td后面的文本内容就是了 <td>(\\W*)$ 那么如何去掉td呢?注意里面正则表达式有个()小括号,这就是用来分组的,因为这里面只有一个()小括号,所以java代码里面

mt3  .group(1)获取的就是td的文本,多个的话,就是
mt3  .group(1),
mt3  .group(2)
mt3  .group(3)
。。。。。。。这样去取文本。
 
 
 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值