用htmlparser截取新闻内容 java

最近做毕设,需要从各大网站上下载网页,并提取出标题,作者,正文,日期等新闻内容。标题,作者,日期等因为长度较小,变化少,所以很容易搞定,而正文的抽取对于我这个刚学htmlparser的人来说就有些复杂了。由于正文标签中各种类型子标签的存在(如图片信息,超链接,粗体),使提取正文的内容变得有些不易。最近刚发现了StringBean这个好东西,它是visitor的一个子集,遍历所有节点,抽取文字信息,但是如果直接使用,遍历所有节点,会导致抓取到不需要的信息。所以,解决方法是,先用filter过滤到符合要求的正文节点,然后用StringBean遍历符合要求的所有节点,获取想要的新闻内容。

 

这里以news.qq.com里的新闻为例,分析2010年以后的QQ新闻(2010年以前QQ使用的是老网页模板,需要照具体情况改动filter的内容,就不一一列举了;并且只列举正文一种情况,日期,导读等另行添加代码,原理不变)

 

import org.htmlparser.beans.*;
import org.htmlparser.tags.*;
import org.htmlparser.filters.*;
import org.htmlparser.NodeFilter.*;
import org.htmlparser.Node.*;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.visitors.*;
import org.htmlparser.Tag;

 

/*

之前的代码

*/

String content="";//content存储新闻正文内容

Parser parser = Parser.createParser(pageHTML, "GBK");//pageHTML是我下载到的网页源代码,也可以用url参数来创建一个parser.
            NodeFilter filter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("id", "Cnt-Main-Article-QQ"));//腾讯2010年以后的网页大多采用新模板
            //不能用"h1"标签来判断新模板,因为2009年有特例。所以要看<div id="Cnt-Main-Article-QQ">,有这个的是新模板。
            NodeFilter pf = new AndFilter(new NodeClassFilter(ParagraphTag.class), new HasParentFilter(filter));
            //在<div id="Cnt-Main-Article-QQ">底下的p标签里的内容才是新闻正文内容
            nodes = parser.parse(pf);//提取所有符合要求的正文节点

            if (nodes.size() > 0)//以下是新模板对应的标签提取工作
            {
                StringBean sb = new StringBean();
                sb.setCollapse(true);
                nodes.visitAllNodesWith(sb);
                if (sb.getStrings() != null) {
                    content += sb.getStrings();

                 //这样,就获取了新闻的内容

                }

}

/*

之后的代码

*/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值