转载:http://blog.sina.com.cn/s/blog_683b7a840100o8q1.html
java发送http请求,解析html返回的技术,主要是用于抓取网站数据。
思路:
java通过URLConnection链接目的地网址,链接成功后从inputStream中获取返回的html内容,获取后就可以按照正则匹配的方式或者第三方工具,根据页面信息的规律来分析数据获取数据。
反制措施:
谁的网站都不想让别人轻易的抓取到自己的数据,那怎么避免这种事情发生呢?
一般在http服务器目录下配置robots.txt文件,具体写法网上查; 不过也是有办法突破的,基本上防君子不防小人;大网站也用robots.txt这么做,不过更多的是一种法律上的手段禁止别人爬取,要想技术上做到绝对不允许爬取的话很难,比如taobao屏蔽baidu就是一个例子; 靠robots.txt文件的配置能挡掉很大一部分了; 但如果你想要求更严格,那只能自己做http服务器扩展来保证了,比如开发一个apache的module,挡掉那些不起眼的爬虫。
在反制其他人恶意抓取分析自己网站数据上,可以采用网页加密的方式。加密后的网页能够正常在Internet Explorer或者Netscape Navigator浏览,但是源代码无法正常编辑或查看。不确定的问题是,是否影响速度、是否影响多浏览器的兼容。--待验证
Java发送Http请求,解析html返回
今天是2008年7月7日星期一,下午一直在学校做个人开始页面。因为离不开google的翻译,所以想把google的翻译整合到我的开始页面中来,于是乎就遇到了一个问题,怎样使用java程序发送http请求然后截获远程服务器返回的数据进行适当处理之后再输出?另外,google的翻译页面是使用post的方法提交数据的,无法直接通过网址进行处理,于是乎,这又涉及到了一个怎样使用java去post数据的问题。
经过拜读百度知道的提问(花了我20分),找到了一个htmlparser的jar包组件,据说是可以很高效率的进行html的解析。于是乎,立马下载了一个过来。(文后附件中有)试了一下果然不错。同时,在这个过程中也学会了怎样利用java来和其它网站交互,这可是一个非常不错的功能,配合htmlparser,可以随心所欲的截取别人网站的信息了!
废话不多说了,下面是具体的使用步骤。
首先,向一个Web站点发送POST请求只需要简单的几步:
注意,这里不需要导入任何第三方包
package com.test;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.net.URLConnection;
public class TestPost {
public static void testPost() throws IOException {
URL url = new URL("http://www.faircanton.com/message/check.asp");
URLConnection connection = url.openConnection();
connection.setDoOutput(true);
OutputStreamWriter out = new OutputStreamWriter(connection
.getOutputStream(), "8859_1");
//String param="name="+URLEncoder.encode("丁丁","UTF-8"); //如果参数中包含中文,记得转码
out.write("username=kevin&password=*********"); //post的关键所在!
// remember to clean up
out.flush();
out.close();
// 一旦发送成功,用以下方法就可以得到服务器的回应:
String sCurrentLine;
String sTotalString;
sCurrentLine = "";
sTotalString = "";
InputStream l_urlStream;
l_urlStream = connection.getInputStream();
// 传说中的三层包装阿!
BufferedReader l_reader = new BufferedReader(new InputStreamReader(
l_urlStream));
while ((sCurrentLine = l_reader.readLine()) != null) {
sTotalString += sCurrentLine + "\r\n";
}
System.out.println(sTotalString);
}
public static void main(String[] args) throws IOException {
testPost();
}
}
执行的结果:(果真是返回了验证后的html阿!神奇!)
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>账户已经冻结</title>
<style type="text/css">
<!--
.temp {
font-family: Arial, Helvetica, sans-serif;
font-size: 14px;
font-weight: bold;
color: #666666;
margin: 10px;
padding: 10px;
border: 1px solid #999999;
}
.STYLE1 {color: #FF0000}
-->
</style>
</head>
<body>
<p> </p>
<p> </p>
<p> </p>
<table width="700" border="0" align="center" cellpadding="0" cellspacing="0" class="temp">
<tr>
<td width="135" height="192"><div align="center"><img src="images/err.jpg" width="54" height="58"></div></td>
<td width="563"><p><span class="STYLE1">登录失败</span><br>
<br>
您的帐户活跃指数低于系统限制,您的帐户已经被暂时冻结。<br>
请您联系网络主管或者人事主管重新激活您的帐户。</p>
</td>
</tr>
</table>
<p> </p>
</body>
</html>
一些Web站点用POST形式而不是GET,这是因为POST能够携带更多的数据,而且不用URL,这使得它看起来不那么庞大。使用上面列出的大致的代码,Java代码可以和这些站点轻松的实现对话。
得到html以后,分析内容就显得相对轻松了。现在就可以使用htmlparser了,下面是一个简单的示例程序,过多的解释我就不说了,相信代码能够说明一切的!
package com.test;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
public class TestHTMLParser {
public static void testHtml() {
try {
String sCurrentLine;
String sTotalString;
sCurrentLine = "";
sTotalString = "";
java.io.InputStream l_urlStream;
java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
l_connection.connect();
l_urlStream = l_connection.getInputStream();
java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
while ((sCurrentLine = l_reader.readLine()) != null) {
sTotalString += sCurrentLine+"\r\n";
// System.out.println(sTotalString);
}
String testText = extractText(sTotalString);
System.out.println( testText );
} catch (Exception e) {
e.printStackTrace();
}
}
public static String extractText(String inputHtml) throws Exception {
StringBuffer text = new StringBuffer();
Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");
// 遍历所有的节点
NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
return true;
}
});
System.out.println(nodes.size()); //打印节点的数量
for (int i=0;i<nodes.size();i++){
Node nodet = nodes.elementAt(i);
//System.out.println(nodet.getText());
text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");
}
return text.toString();
}
public static void test5(String resource) throws Exception {
Parser myParser = new Parser(resource);
myParser.setEncoding("GBK");
String filterStr = "table";
NodeFilter filter = new TagNameFilter(filterStr);
NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
TableTag tabletag = (TableTag) nodeList.elementAt(11);
}
public static void main(String[] args) throws Exception {
// test5("http://www.ggdig.com");
testHtml();
}
}