java 正则抓取数据

最新推荐文章于 2023-10-12 10:49:58 发布

huaye

最新推荐文章于 2023-10-12 10:49:58 发布

阅读量1.7k

点赞数

分类专栏： java 正则表达式文章标签： java string regex 正则表达式 exception table

本文链接：https://blog.csdn.net/huaye2007/article/details/7646408

版权

java 正则表达式专栏收录该内容

1 篇文章 0 订阅

订阅专栏

刚开始不太熟悉正则，在网上搜了下资料，开始了正则的测试之后，终于可以抓取内容了

package com.test;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Arrays;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 抓取短信居的搞笑短信
 * http://www.dxju.com/dxw/gxdx/
 * */
public class Testdxju {

	/**
	 * 提取超链接里面的文本
	 * */
	public static String getRequestData(String urlStr) throws Exception{
		URL url = new URL(urlStr);
		HttpURLConnection urlConn =( HttpURLConnection) url.openConnection();
		int code = urlConn.getResponseCode();
		StringBuffer sb = new StringBuffer("");
		if(code == 200){
			BufferedReader br = new BufferedReader(new InputStreamReader(urlConn.getInputStream(),"gb2312"));
			String str = null;
			while((str = br.readLine()) != null){
				//查看网页源代码之后，里面有多个表格，写此正则之后，就只有一个table了
				String regex2 = "<table.*>.*</table>";
				Pattern pt = Pattern.compile(regex2);
				Matcher mt = pt.matcher(str);
				while(mt.find()){
					//下面就是针对上面的table提取多个url
					String s = mt.group();
					System.out.println(s);
					String regex3 = ">(\\W*)$";//获取文本
					Pattern pt3 = Pattern.compile(regex3);
					String[] strArray = s.split("<[/]a>");//先将字符串以</a>分为字符串数组
					for(String sss:strArray){
						Matcher mt3 = pt3.matcher(sss);
						if(mt3.find()){
							System.out.println(mt3.group(1));
						}
					}
				}
				sb.append(str+"\r\n");
			}
		}
		return sb.toString();
	}
	public static void main(String[] args) {
		try {
			getRequestData("http://www.dxju.com/dxw/gxdx/");
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

说下自己刚学到的几个正则里面比较重要的几点

字符串例子 String str="<table><tr><td>aaaaa</td></tr><tr><td>bbbbb</td></tr></table>";

1：重复的标记需要用split来获取成数组再匹配正则：比如table里面会有很多的td,我们需要td里的文本，则先将这个字符串以</td>这个标记来切割字符串，变成一个字符串数组

那么上面的str 经过split("<[/]td>")之后就变成 <table><tr><td>aaaaa 和 </tr><tr><td>bbbbb </tr></table> 三个字符串

在用正则表达式截取td后面的文本内容就是了 <td>(\\W*)$ 那么如何去掉td呢？注意里面正则表达式有个()小括号，这就是用来分组的,因为这里面只有一个()小括号，所以java代码里面

mt3  .group(1)获取的就是td的文本,多个的话，就是mt3  .group(1)，mt3  .group(2)
mt3  .group(3)
。。。。。。。这样去取文本。

huaye

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java 正则抓取数据

刚开始不太熟悉正则，在网上搜了下资料，开始了正则的测试之后，终于可以抓取内容了package com.test;import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.MalformedURLException;
复制链接

扫一扫