这周研究了一下AJAX和网页爬虫。
AJAX,就是异步js和xml,总结了一下主要的代码思路,如下
1.request =new XMlHttpRequest()/new ActiveXObject("Msxml2.XMLHTTP")/new ActiveXObject("Microsoft.XMLHTTP")
2. var xx=document.getElenmentById("xx").value
var url="xxxxxxxxxxxxxxx"
request.open("GET",url,true)
request.onreadystatechange =updatePage
request.send(null)
3 function updatePage(){
if(request.readyState==4){
if(request.status==200){
alert("Server is done!")
}
}
} 暂时还不是很全,没能很好理解到,以后的时间继续看。
还有网页爬虫,第一次接触,觉得主要就是分析url来读取这个html文件(个人理解),然后用正则表达式来匹配内容。正则表达式有些看到头晕,还不能理解。分析URL来读取html文件主要用到下面的代码
Pattern p=pattern.complie("正则表达式",Pattern.CASE_INSENSITIVE);
Matcher m =p.matcher(pageContents) pageContents为网页内容,html文件
//以下为根据URL读取网页内容,即pageContents
private String downloadPage(URL pageUrl) {
try {
// Open connection to URL for reading.
BufferedReader reader = new BufferedReader(new InputStreamReader(
pageUrl.openStream()));
// Read page into buffer.
String line;
StringBuffer pageBuffer = new StringBuffer();
while ((line = reader.readLine()) != null) {
pageBuffer.append(line);
}
return pageBuffer.toString();
} catch (Exception e) {
}
return null;
}