用JAVA实现文章采集教程

最近自己做了一个游戏社区的网站找游网,虽然做了开发者模块,游戏开发者和游戏公司可以自主发布游戏和新闻,但是自己还是想更新游戏资讯,一篇一篇复制太煎熬了!所以自己就尝试做一个简单的采集!

经过百度,发现做采集用JAVA实现的貌似最方便的就只有jsoup了!原理其实简单,获取HTML节点信息,然后根据规则采集过来!

这个模块当然首先就要做一个规则创建的模块!规则作为一个对象。


public class Rule implements Serializable {
    /**
     *
     */
    private static final long serialVersionUID = 553314127806022119L;

    private Long id;
    private String name;
    private String description;
    private String url;
    private String listRule;
    private String titleRule;
    private String contentRule;

.....

然后创建采集文章的表t_Post


如我采集http://news.52pk.com/shtml/hwnews/list_11_2.shtml 列表的文章,通过代码获取每篇文章的链接。

接着通过URL来获取每篇文章的节点。

通过分析HTML的DOM元素Selector选择器来获取文章信息


规则就是我们的页面选择器

通过分析,规则如下:

列表:ul.listlb color049 li

文章标题:div#articletxt1 h1

正文:div#article


运行采集即可,蛮简单的。代码因为在项目里,不方便打包,要的话联系我,我把JAVA单个文件给你。


随便打个广告www.zhaoyo.com  找游网  游戏社区,玩家可以使用微博平台,分享游戏等!开发者可以推广游戏!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值