通过htmlParser抓取百度相关内容

最新推荐文章于 2024-09-06 10:13:19 发布

lanbosan

最新推荐文章于 2024-09-06 10:13:19 发布

阅读量1.4w

点赞数

文章标签：百度 url string table border 框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lanbosan/article/details/2440761

版权

最近这两天我做了个最新电影网的视频网站,主要是从土豆抓取来的.所以内容页就是框架,不便于搜索的抓取。所以我就想加些相关内容,像这样的内容
由于我就是通过百度搜索关键字来填充内容。下面就是我通过htmlParser抓取的代码。

public class BaiduResultAction extends BaseAction {

public static final Logger logger = Logger

.getLogger(BaiduResultAction.class);

/**

* 组装新闻

*

* @param url

* @return

*/

public String compNews(String url) {

String returnContent = null;

try {

ParserModel parserModel = new ParserModel();

//table 的抓取标签

String content = "border=/"0/" cellpadding=/"0/" cellspacing=/"0/"";

parserModel.setContent(content);

NodeClassNameFilter contentNodeClassNameFilter = new NodeClassNameFilter(

TableTag.class, parserModel);

NodeList contentList = getAllNodeList(url,

contentNodeClassNameFilter);

// 对table的处理只取第一个table中的一项记录

//如果全部抓取内容,则要去掉最后一个break;

for (int i = 1; i < contentList.size(); i++) {

if (contentList.elementAt(i) instanceof TableTag) {

TableTag tableContent = (TableTag) contentList

.elementAt(i);

int rowCount = tableContent.getRowCount();

TableRow[] arrRows = tableContent.getRows();

for (int j = 0; j < arrRows.length; j++) {

TableRow tableRow = arrRows[j];

TableColumn[] arrColumm = tableRow.getColumns();

for (int k = 0; k < arrColumm.length; k++) {

String columContent = arrColumm[k].toHtml();

if(columContent != null){

String[] split = columContent.split("<br>");

if(split.length>2)

returnContent = split[1].substring(0,split[1].length()-4);

}

break;

}

}

}

break;

}

} catch (IllegalArgumentException e) {

// TODO Auto-generated catch block

e.printStackTrace();

return null;

} catch (Exception e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

return returnContent;

}

public static void main(String[] args) throws Exception {

BaiduResultAction action = new BaiduResultAction();

//抓取sohu的内容.通过百度

String url = "http://www.baidu.com/s?wd=%BA%DA%BF%CD%B5%DB%B9%FAII+11%28112%29++site%3Asohu.com";

// String url = "http://bbs.hoopchina.com/htm_data/96/0712/274754.html";

// List<String> hrefList = sinaAction.parseLink(url, getIndexFilter());

/* logger.debug(sinaAction.compNews(url)); */

action.compNews(url);

}

}

效果如下：http://www.tondou.cn/c/2008-05-12/314146 u

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
通过htmlParser抓取百度相关内容

最近这两天我做了个最新电影网的视频网站,主要是从土豆抓取来的.所以内容页就是框架,不便于搜索的抓取。所以我就想加些相关内容,像这样的内容由于我就是通过百度搜索关键字来填充内容。下面就是我通过htmlParser抓取的代码。public class BaiduResultAction extends BaseAction { public static final Logger l
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。