Java数据采集-3.抓取开源中国新闻(新版)

最近看之前写的几篇网页数据采集的博客,陆陆续续的有好友发私信交流,又想重新整理一下这些了,抽空继续更新本系列博客。

针对开源中国新闻列表新版,重新写代码抓取。

网址:https://www.oschina.net/news
jar包:jsoup.1.7.2.jar
项目源码:https://github.com/geekfly2016/Spider

  • 分析新闻列表所在位置

这里写图片描述

  • 根据上图我们可以看出,新闻列表全部都在该div下。
<div class="news-list-item" id="all-news">
<!--文章列表-->
</div>
  • 单个新闻位于该div下。
<div class="item box"></div>
  • 故选择新闻列表的代码即为:
Elements items = document.select("#all-news .item");
System.out.println(items.size());

注:因为class有两个,item和box,由于Jsoup选择器中需写两个select,此处使用一个即可精确匹配。可参看:http://blog.csdn.net/ywf008/article/details/53215648

  • 分析单条新闻信息
    这里写图片描述

  • 标题位于第一个a标签下,标题地址为href参数

String title = item.select("a").first().text();
String title_href = item.select("a").first().attr("href");
if(!title_href.startsWith("https://")){
                title_href = host + title_href;
            }

注:抓取时打印链接发现部分链接已为完整的,有些许自行拼接域名,故此处加了判断是否已https://开始。

  • 新闻描述
String desc = item.select("div[class=sc sc-text text-gradient wrap summary]").text();

对于属性有多个值得时候,除了上述提到的使用某个能确定的值或者使用多个select选择器外,也可以使用div[class=xx yy zz]这种模式匹配(推荐方式)。

  • 用户头像
String author_image = item.select("img[class=avatar]").attr("src");

或者

String author_image = item.select("img").first().attr("src");

获取方式都不唯一

  • 作者姓名
Element mr = item.select(".from .mr").get(0);
//作者
String author = mr.select("a").text();
// 从span[class=mr]中移除a标签,输出的即为发布时间
mr.select("a").remove();
String published = mr.text();
  • 获取评论数
String number = item.select(".from .mr").last().text();

至此,我们已经可以完整获取当前页的新闻数据了。
注:新闻列表数据中包含一条广告数据
这里写图片描述

  • 过滤代码
//过滤广告
if(!item.attr("data-tracepid").isEmpty()){
    continue;
}

仓库:https://github.com/geekfly2016/Spider
代码目录:Spider/src/xyz/geekfly/oschina/News.java


下一篇更新翻页数据如何获取。

2-1. 新建项目工程,工程名为CORE_C09_049: 2-1.1. 复制一个图片文件到当前项目工程的根目录下,命名为icon.png 2-1.2. 新建java类-CopyDemo01。 2-2. 创建复制图片文件的方法-copyImageFile: 2-2.1. 第一个入参是:需要复制的图片文件路径 2-2.2. 第二个入参是:复制后图片文件的保存路径 2-2.3. 无返回值 2-3. copyImageFile方法中实现图片文件复制: 2-3.1. 通过第一个入参,获取FileInputStream对象; 2-3.2. 通过第二个入参,获取FileOutputStream对象; 2-3.3. 创建byte[]变量,长度为2048,用于存放读取到的数据 2-3.4. 通过FileInputStream的read方法读取数据并保存到byte数组中 1) 把read方法的返回值赋值给int变量len。(返回值为read方法读取到的字节数) 2-3.5. 通过while循环,读取待复制图片数据并写入复制图片中: 1) 循环条件:读取到的数据长度不等于-1,即表示读取到有效数据; 2) 循环内容:通过FileOutputStream的write方法将读取到的缓存数据写入图片文件; 2-4. 循环结束后,关闭文件资源: 2-4.1. 关闭输出流资源:FileOutputStream。 2-4.2. 关闭输入流资源:FileInputStream。 2-5. 抓取上述代码中抛出的FileNotFoundException和IOException。 3、验证与测试 3-1. 程序测试: 3-1.1. 创建程序入口函数-main 3-1.2. 调用copyImageFile方法,把当前项目工程下的图片文件icon.png复制到当前工程目录下 1) 原文件路径:icon.png 2) 目标文件路径:copyIcon.png 3-1.3. 运行该项目,观察能否能够实现图片的复制。
06-09
根据您提供的步骤,我可以帮您解释一下每个步骤的含义和作用,以及可能出现的问题和解决方法: 2-1. 新建项目工程,工程名为CORE_C09_049: 这一步是创建一个新的Java项目,命名为CORE_C09_049,用于实现图片文件复制功能。 2-1.1. 复制一个图片文件到当前项目工程的根目录下,命名为icon.png: 这一步是将一个图片文件复制到项目的根目录下,并将其命名为icon.png。如果原文件路径不正确,会导致后续操作无法进行。 2-1.2. 新建java类-CopyDemo01: 这一步是创建一个名为CopyDemo01的Java类,用于实现图片文件复制的方法。 2-2. 创建复制图片文件的方法-copyImageFile: 这一步是在CopyDemo01类中创建一个名为copyImageFile的方法,用于实现图片文件的复制。 2-2.1. 第一个入参是:需要复制的图片文件路径: 这个参数是需要复制的图片文件的路径,用于获取图片文件的输入流。 2-2.2. 第二个入参是:复制后图片文件的保存路径: 这个参数是复制后的图片文件的保存路径,用于获取图片文件的输出流。 2-2.3. 无返回值: 这个方法没有返回值,只负责实现图片文件的复制操作。 2-3. copyImageFile方法中实现图片文件复制: 这一步是在copyImageFile方法中实现图片文件的复制操作。 2-3.1. 通过第一个入参,获取FileInputStream对象: 这一步是通过第一个入参获取需要复制的图片文件的输入流。 2-3.2. 通过第二个入参,获取FileOutputStream对象: 这一步是通过第二个入参获取复制后的图片文件的输出流。 2-3.3. 创建byte[]变量,长度为2048,用于存放读取到的数据: 这一步是创建一个长度为2048的byte数组,用于存放从输入流中读取的数据。 2-3.4. 通过FileInputStream的read方法读取数据并保存到byte数组中: 这一步是通过FileInputStream的read方法读取数据,并将读取到的数据保存到byte数组中。 2-3.5. 通过while循环,读取待复制图片数据并写入复制图片中: 这一步是通过while循环,不断从输入流中读取数据,并将读取到的数据写入输出流中。 2-4. 循环结束后,关闭文件资源: 这一步是在循环结束后,关闭已经打开的文件资源。 2-4.1. 关闭输出流资源:FileOutputStream。 这一步是关闭输出流资源,释放系统资源。 2-4.2. 关闭输入流资源:FileInputStream。 这一步是关闭输入流资源,释放系统资源。 2-5. 抓取上述代码中抛出的FileNotFoundException和IOException。 这一步是抓取可能会发生的异常,包括文件未找到异常和IO异常,以防止程序出错或崩溃。 3、验证与测试 这一步是创建一个程序入口函数main,并在其中调用copyImageFile方法,将icon.png文件复制为copyIcon.png文件,测试程序是否能够实现图片的复制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值