java爬虫(1)

目录

准备工作

了解 并配置maven

安装maven

下载maven

配置环境变量:

配置maven本地仓库

eclipse配置maven

配置maven安装目录

创建maven项目

新建项目

maven项目引入HTTPclient依赖库

抓取腾讯用户上传视频信息:

分析页面。

请求网站内容(敲代码)

处理响应

获取结果

问题:

导包报错:

//TODO:下篇贴出完整代码。

显示的是“20”,明明是27个视频。丢哪里了???


准备工作

  • java开发环境(JDK)

  • eclipse

我用的还是用的16年机器上的eclipse

Eclipse Java EE IDE for Web Developers.

Version: Neon.3 Release (4.6.3)

 

了解 并配置maven

为什么要用maven?

因为需要使用HttpClient库,HttpClient可以抓取页面内容。百度时候,发现他人新建的是普通的maven项目。

了解到maven是一种全新的项目构建方式,让我们的开发更加简单,高效。Maven主要做的是两件事:

  1. 统一开发规范与工具
  2. 统一管理jar包

这两件事情他都做到了,而且还做了更多的事情。Maven还可以管理项目的整个声明周期,包括编 译,构建,测试,发布,报告等等。目前Apache下绝大多数项目都已经采用Maven进行管理。而Maven本身还支持多种插件,可以方便更灵活的控制项目。

安装maven

这个过程很简单。

  1. 下载maven

    1. 下载maven,并解压:

  2. 配置环境变量:

    1. 系统变量中配置MAVEN_HOME

    2. 系统变量中配置path,在Path值前面添加安装路径D:\maven\apache-maven-3.6.3\bin;

       

    3. 在CMD命令中使用mvn -v命令验证jdk是否安装正常。

      这样就是配置成功了。

    4. 如果没有出现以上成功的版本信息,提示jdk不对就环境变量中,重新配置下就JAVA_HOME的安装地址。

      然后用java -version命令验证jdk是否安装正常。

  3. 配置maven本地仓库

    1. maven本地仓库位置默认在C盘,这很危险,

    2. 我们在D:\maven\apache-maven-3.6.3\conf\settings.xml中找到以下位置并添加新的地址即可。

    3. 修改后,我们可以cmd中输入“mvn help:system”验证。

    4. 成功后,看看D盘repository中有没有新的资源。”

eclipse配置maven

  1. 配置maven安装目录

    1. 依次打开Window –> Perferences –> Maven ,展开Maven的配置界面,如上图;

      这里写图片描述

      然后点击installations如下图,配置maven安装目录,后apply,点击ok完成

    2. 然后, 我们在Maven的树状栏中选择User Settings-->Global Settings,选择maven 安装目录下conf文件夹下的settings.xml,这里我的Maven安装目录为D:\maven\apache-maven-3.2.3\conf\settings.xml,选择你的Maven安装目录,检查Local Repository 项,如果为D:/maven/repository则配置成功,否则重新配置上一步。现在我们已经配置好了eclipse,下面,我们可以创建maven项目了。

  2. 创建maven项目

    1. 新建项目

      1. 我们在Eclipse菜单栏中点击File->New->Other->Maven,在弹出的对话框中会看到,如下图所示:

      2. 填写Group id和Artifact id, Version默认,Packaging默认为jar,Name,Description选填,其他的不填之后点击“完成”。

      3. 选择Maven Project,请选中Create a simple project(skip archetype selection),之后点击下一步

      4. 到此一个简单的maven项目创建成功。

        但并没有maven dependency依赖包,如图:

        ,因为我们还要引入需要的HttpClient依赖库。

    2. maven项目引入HTTPclient依赖库

      有两种方法:

      1. 修改pom.xml文件。dependencys中填入依赖信息
        <dependencys>
            <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
            <!-- 注释部分是依赖库的地址-->
            <dependency>
                <groupId>org.apache.httpcomponents</groupId>
                <artifactId>httpclient</artifactId>
                <version>4.5.8</version>
            </dependency>
        </dependencys>
      2. IED中操作确定后,Dependencies中就有了这个库,Ctrl+s保存即可。

抓取腾讯用户上传视频信息:

  1. 分析页面。

    1. 浏览器中看HTML内容,找到自己需要的信息。

      我们需要的就是id=“_videolist_latest”的div。
    2. 所以我们需要找到它,将里面的list_item全部遍历出来。

      绿色部分就是我想要的信息。
  2. 请求网站内容(敲代码)

    // 1.生成httpclient,相当于该打开一个浏览器
    CloseableHttpClient httpClient = HttpClients.createDefault();
    CloseableHttpResponse response = null;
    		
    // 2.创建get请求,相当于在浏览器地址栏输入 网址
    HttpGet request = new HttpGet("http://v.qq.com/vplus/c8e58a4015720629e370ba49c9e883e0?page=video");
    
    // 3.执行get请求,相当于在输入地址栏后敲回车键
    response = httpClient.execute(request);
    
    // 4.判断响应状态为200,进行处理
    if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
    
    // 5.获取响应内容
    HttpEntity httpEntity = response.getEntity();
    String html = EntityUtils.toString(httpEntity, "utf-8");
    System.out.println(html);
  3. 处理响应

    // 6.Jsoup解析html
     Document document = Jsoup.parse(html);
    				
    // 像js一样,通过标签获取title
    System.out.println(document.getElementsByTag("title").first());
    // 像js一样,通过id 获取文章列表元素对象
    Element postList = document.getElementById("_videolist_latest");
    // 像js一样,通过class 获取列表下的所有博客
    Elements postItems = postList.getElementsByClass("list_item");
    System.out.println(postItems.size());
    
    // 循环处理每篇博客
    for (Element postItem : postItems) {
    	// 像jquery选择器一样,获取文章标题元素
    	Elements titleEle = postItem.select(".figure_detail a[class='figure_title figure_title_two_row']");
    	System.out.println("视频标题:" + titleEle.attr("title"));
    	System.out.println("播放地址:" + titleEle.attr("href"));
    
    	Elements desc = postItem.select(".figure_detail div[class='figure_desc']");
    	System.out.println("播放量:" + desc.get(0).text());
    	System.out.println("上传日期:" + desc.get(1).text());
    
    	// 像jquery选择器一样,获取文章作者元素
    	Elements footEle = postItem.select(".figure div[class='figure_caption']");
    	System.out.println("时长:" + footEle.text());
    	System.out.println("*********************************");
    }
  4. 获取结果

看来还是成功的 。但是又个问题,图片中第2行,显示的是“20”,明明是27个视频。

丢哪里了???今天到此结束,明天找问题,解决问题。

问题:

  • 导包报错:

处理问题:使用 HttpClient库需要依赖Httpcore

        <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpcore -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpcore</artifactId>
            <version>4.4.10</version>
        </dependency>
  • //TODO:下篇贴出完整代码。

  • 显示的是“20”,明明是27个视频。丢哪里了???

    • 答:因为打开网页,只显示20个,当用户滚动鼠标下拉页面到列表下方时,会又一次请求。指导没有视频后,页面才不能继续滚动。
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值