多站点RSS新闻正文抓取,导入discuz论坛,自动发帖的实现(二)

本文档续接前文,详细阐述如何同时抓取多个RSS站点的新闻正文,以及如何捕获正文内的图片。作者强调目标是精确抓取正文内容,排除广告和评论等非正文元素。通过使用DOM4J库进行XML解析,并借助Maven管理依赖。在解析完所有站点后,访问每个URL以获取正文,并参照前文步骤进行操作。系列文章的下一部分将讲述如何将抓取的内容保存到Discuz论坛中。
摘要由CSDN通过智能技术生成

上一篇文章介绍了,通过rss抓取新闻正文。这里介绍同时抓取多个RSS站点的正文,以及抓取正文中的图片。

我的RSS不是抓取 站点 <body></body>中的内容,而是需要的正文,广告评论等都排除在外。


第一部分:同时抓取多个站点,看看我的站点配置

<?xml version="1.0" encoding="GB2312"?>
<websites>
    <site>
        <name>IT之家</name>
        <url>http://www.ithome.com/rss/</url>
        <startTag><![CDATA[<div class="post_content" id="paragraph">]]></startTag>
        <endTag><![CDATA[<div class="share">]]></endTag>
        <encoding>GB2312</encoding>
        <open>true</open>
    </site>

    <site>
    <name>虎嗅网</name>
    <url>http://www.huxiu.com/rss/0.xml</url>
    <startTag><![CDATA[<table cellpadding="0" cellspacing="0" class="neirong-box" >]]></startTag>
    <endTag><![CDATA[</table>]]></endTag>
    <encoding>UTF-8</encoding>
    <open>true</open>
    </site>
</website>
这两个站点就是我需要抓取的,url是rss地址  startTag,endTag 是正文开始和结束的位置,encoding是站点的编码格式,open 表示是否抓取该站点,如果不清晰 请看 http://blog.csdn.net/kissliux/article/details/14227057


需要抓取的站点准备好了,开始解析吧。使用dom4j,请引入相关jar   我习惯使用maven管理这些jar

        <dependency>
            <groupId>dom4j</groupId>
            <artifactId>dom4j</artifactId>
            <version> 1.6.1</version>
        </dependency>


站点的bean对象

public class Website {
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值