python爬虫与java爬虫_java爬虫框架webmagic的搭建与示例,爬取csdn

最新推荐文章于 2024-07-12 17:01:23 发布

weixin_39901412

最新推荐文章于 2024-07-12 17:01:23 发布

阅读量68

点赞数

文章标签： python爬虫与java爬虫

然后我们爬去csdn上的最新文章标题,下面就是代码全文:

package spider;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

public class BaiDuJingYan implements PageProcessor {

//爬虫的配置, 重试时间抓取间隔

private Site site = Site.me().setRetryTimes(3).setSleepTime(100);

//计数器

private static int count = 0;

public static void main(String[] args) {

long startTime,endTime;

System.out.println("开始爬取...");

startTime = System.currentTimeMillis();

Spider.create(new BaiDuJingYan()).addUrl("https://www.cnblogs.com/").thread(5).run();

endTime = System.currentTimeMillis();

System.out.println("爬取结束,耗时约"+((endTime - startTime)/1000)+"秒,爬取了"+count+"条记录");

}

@Override

public Site getSite() {

return site;

}

@Override

public void process(Page page) {

//判断链接是否符合http://www.cnblogs.com/数字字母-/p/7个数字.html格式

if(!(page.getUrl().regex("http://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html").match())) {

//加入满足条件的链接

page.addTargetRequests(

page.getHtml().xpath("//*[@id=\"post_list\"]/div/div[@class='post_item_body']/h3/a/@href").all()

);

}else {

//获取页面需要的内容

System.out.println("抓取的内容:"+page.getHtml().xpath("//*[@id=\"Header1_HeaderTitle\"]/text()").get());

count++;

}

}

}

weixin_39901412

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫与java爬虫_java爬虫框架webmagic的搭建与示例,爬取csdn

然后我们爬去csdn上的最新文章标题,下面就是代码全文:package spider;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.processor.PageProcessor;...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。