刚开始不太熟悉正则,在网上搜了下资料,开始了正则的测试之后,终于可以抓取内容了
package com.test;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Arrays;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* 抓取短信居的搞笑短信
* http://www.dxju.com/dxw/gxdx/
* */
public class Testdxju {
/**
* 提取超链接里面的文本
* */
public static String getRequestData(String urlStr) throws Exception{
URL url = new URL(urlStr);
HttpURLConnection urlConn =( HttpURLConnection) url.openConnection();
int code = urlConn.getResponseCode();
StringBuffer sb = new StringBuffer("");
if(code == 200){
BufferedReader br = new BufferedReader(new InputStreamReader(urlConn.getInputStream(),"gb2312"));
String str = null;
while((str = br.readLine()) != null){
//查看网页源代码之后,里面有多个表格,写此正则之后,就只有一个table了
String regex2 = "<table.*>.*</table>";
Pattern pt = Pattern.compile(regex2);
Matcher mt = pt.matcher(str);
while(mt.find()){
//下面就是针对上面的table提取多个url
String s = mt.group();
System.out.println(s);
String regex3 = ">(\\W*)$";//获取文本
Pattern pt3 = Pattern.compile(regex3);
String[] strArray = s.split("<[/]a>");//先将字符串以</a>分为字符串数组
for(String sss:strArray){
Matcher mt3 = pt3.matcher(sss);
if(mt3.find()){
System.out.println(mt3.group(1));
}
}
}
sb.append(str+"\r\n");
}
}
return sb.toString();
}
public static void main(String[] args) {
try {
getRequestData("http://www.dxju.com/dxw/gxdx/");
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
说下自己刚学到的几个正则里面比较重要的几点
字符串例子 String str="<table><tr><td>aaaaa</td></tr><tr><td>bbbbb</td></tr></table>";
1:重复的标记需要用split来获取成数组再匹配正则:比如table里面会有很多的td,我们需要td里的文本,则先将这个字符串以</td>这个标记来切割字符串,变成一个字符串数组
那么上面的str 经过split("<[/]td>")之后就变成 <table><tr><td>aaaaa 和 </tr><tr><td>bbbbb </tr></table> 三个字符串
在用正则表达式截取td后面的文本内容就是了 <td>(\\W*)$ 那么如何去掉td呢?注意里面正则表达式有个()小括号,这就是用来分组的,因为这里面只有一个()小括号,所以java代码里面
mt3 .group(1)获取的就是td的文本,多个的话,就是
mt3 .group(1),
mt3 .group(2)mt3 .group(3)
。。。。。。。这样去取文本。