抓取网页中指定节点的内容（java版本）

最新推荐文章于 2020-11-11 09:41:38 发布

VIP文章 long0428

最新推荐文章于 2020-11-11 09:41:38 发布

阅读量3.1k

点赞数

分类专栏： javaWeb 文章标签： java import dao class service training

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/long0428/article/details/2223235

版权

package atest;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters. * ;

import org.htmlparser.tags.Div;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util. * ;

import com.jdon.controller.events.EventModel;

import cn.vetech.framework.base.dao.B_class_dao;

import cn.vetech.framework.base.dao.B_class_dao_sql;

import cn.vetech.framework.dao.SqlMapDaoTemplateFactory;

import cn.vetech.framework.news.dao.B_news_dao;

import cn.vetech.framework.news.dao.B_news_dao_sql;

import cn.vetech.framework.news.model.B_news;

import cn.vetech.framework.news.service.B_news_service;

import cn.vetech.framework.news.service.B_news_service_imp;

import cn.vetech.framework.util.VeDate;

/**

* 抓取中华培训网规则 1.抓取chinahtml/zixunzhongxin目录下的文件

* 说明：循环网址下所有链接，根据一定规则过滤掉一部分链接，读出页面指定节点下的内容

* @author sam.zhang

*

*/

public class TestParser {

private B_news_dao b_news_dao;

private B_class_dao b_class_dao;

private B_news_service b_news_service;

private String TRAINING_URL = "http://www.china-training.com"; // 中华培训网网址

private static String TRAINING_ZXURL = "http://www.china-training.com/newpage/zxzx.asp"; // 中华培训网资讯根网址

private String FILEPATH = "chinahtml"; // 中华培训网放置新闻的根文件夹名

private String ZXZX = "zixunzhongxin"; // 存放资讯中心的目录

public TestParser() {

SqlMapDaoTemplateFactory sqldao = new SqlMapDaoTemplateFactory();

b_news_dao = new B_news_dao_sql(sqldao);

b_class_dao = new B_class_dao_sql(sqldao);

b_news_service = new B_news_service_imp(b_news_dao, b_class_dao, null,

null);

}

/**

* 得到指定网址下所有链接

*

* @param url

*/

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
抓取网页中指定节点的内容（java版本）

package atest;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.filters.*;import org.htmlparser.tags.Div;import org.htmlparser.tags.LinkT
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。