WebCrawler Java小爬爬 从入门到放弃 第二章

何为爬虫?
WebCrawler is a metasearch engine that blends the top search results from Google Search and Yahoo! Search. WebCrawler also provides users the option to search for images, audio, video, news, yellow pages and white pages. WebCrawler is a registered trademark of InfoSpace, Inc. It went live on April 20, 1994 and was created by Brian Pinkerton at the University of Washington.
以上是维基百科关于爬虫的定义,简单的说就是获取网页上的信息。

我们先来简单的测试:
爬取某个网页的信息,例如http://www.csdn.net/
在FireFox里面地址栏输入这个网址,或者直接点击上面这个链接也可以。
然后我们按F12(一般浏览器都是F12,或者右击页面查看源代码)
结果如下所示:
CSDN主页源代码信息

import java.io.*;
import java.net.*;
public class test {
    public test(){
        BufferedReader in = null;
        URL realURL;
        String urlContent = "";
        try {
            realURL = new URL("http://www.csdn.net");
            //获取网页链接
            URLConnection connection = realURL.openConnection();  
            connection.connect(); 
            //缓冲流读入
            in = new BufferedReader(new InputStreamReader(  
                    connection.getInputStream(), "UTF-8"));
            String line;
            //用while循环将缓冲区内容写到字符串里
            while(null != (line = in.readLine())){urlContent += line;}           
            //建立文件 写到本地  文件在D盘根目录 名字CSDNhomepageInfo.txt 
            File file = new File("D:\\CSDNhomepageInfo.txt");
            file.createNewFile();
            FileWriter fileWriter = new FileWriter(file);
            fileWriter.write(urlContent);
            //关闭流是个好习惯 当然Java的垃圾回收和内存管理也会帮你干
            fileWriter.close();
        } catch (MalformedURLException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }  
    }
    public static void main(String[] args){
        new test();
    }
}

然后我们就可以打开D盘的CSDNhomepageInfo.txt
结果如下,和我们在FireFox里按F12看到的一模一样
csdnhtnl

然后呢,你就需要去看看点JS html ajax的东西了
不要担心,简单了解就可以。:) 但博主可是要埋头苦学
今天先到这里 博主睡一觉 要去上软件项目管理了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值