Java爬虫 50行代码爬取一个网页(最简单的爬取)

最简单最基础的写法没有任何骚操作

package regex;

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;

public class Test {
    public static void main(String [] args)
    {
        try
        {
        //url地址
            URL url = new URL("https://www.cangqionglongqi.com/xingjiyoulun/28543.html");
            //建立一个连接
            URLConnection urlConnection = url.openConnection();
            HttpURLConnection connection = null;
            if(urlConnection instanceof HttpURLConnection)
            {
            //对象向下转型
                connection = (HttpURLConnection) urlConnection;
            }
            else
            {
                System.out.println("请输入 URL 地址");
                return;
            }
            //建立一个读取流从连接中读取
            BufferedReader in = new BufferedReader(
                    new InputStreamReader(connection.getInputStream(),"gbk"));
                  
            BufferedWriter wr=new BufferedWriter( new OutputStreamWriter(new FileOutputStream("a.txt"),"gbk"));
            String urlString = "";
            String current;
            //如果有数据就一致读
            while((current = in.readLine()) != null)
            {
                urlString += current;
                //每读一行写一行到文本中
                wr.write(current);
                wr.newLine();
                wr.flush();
       }
           System.out.println(urlString);

        }catch(IOException e)
        {
            e.printStackTrace();
        }
    }
}

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
使用Java设计一个爬虫爬取豆瓣评论信息的话,可以按照以下步骤进: 1. 首先,需要选择一个网络爬虫框架,比较常用的有Jsoup、HttpClient、Selenium等,这里以Jsoup为例。 2. 然后,需要确定需要爬取的页面和其对应的URL。以豆瓣电影评论页面为例,URL可以是:https://movie.douban.com/subject/电影ID/comments?start=0&limit=20&sort=new_score&status=P 3. 根据URL,使用Jsoup发送HTTP请求,获取网页代码。 4. 使用Jsoup解析网页代码,获取需要的数据。比如,可以使用CSS选择器或正则表达式来获取评论内容、评分、用户名等信息。 5. 如果需要爬取多页数据,可以通过循环改变URL中的start参数来获取多页数据。 6. 最后,将获取的数据保存到数据库或者文件中。 下面是一个简单的示例代码,用于获取豆瓣电影《肖申克的救赎》的前20条评论: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; public class DoubanSpider { public static void main(String[] args) throws IOException { String url = "https://movie.douban.com/subject/1292052/comments?start=0&limit=20&sort=new_score&status=P"; Document document = Jsoup.connect(url).get(); Elements elements = document.select("div.comment-item"); for (Element element : elements) { String username = element.select("a").first().text(); String rating = element.select("span.rating").attr("title"); String content = element.select("span.short").text(); System.out.println("用户名:" + username); System.out.println("评分:" + rating); System.out.println("评论内容:" + content); System.out.println("---------------------------"); } } } ``` 以上代码中,我们使用Jsoup连接到豆瓣电影《肖申克的救赎》的评论页面,然后使用CSS选择器获取每个评论的用户名、评分和评论内容,并将其输出到控制台。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值