java爬取百度等搜索引擎时加载慢及中文乱码等问题

项目场景:

最近项目种需要我去搜索引擎上按需求搜索网页并将其内容爬取出来,在爬取过程生成html文件时遇到一些问题,现在记录下来


问题描述:

1.爬取到部分页面加载速度满,或者不能加载出来;
2. 一些页面出现中文乱码

注:此次用到的技术包括webmagic,jsoup等页面抓取技术,webmagic通过Spider将目标url添加,并且复写process方法,参数为目标url的page,在这个方法里,可以通过xpath来获取各个节点的信息,我是通过这个方法将百度搜索的列表种的herf链接获取到,并将这些链接添加到待爬取的目标页面中,process方法类似递归方法,将目标url添加到待爬取的队列中后,继续执行process的方法.

String str = page.getHtml().xpath("//div[@id=wrapper_wrapper]/div[@id=container]/div[@id=content_left]/div/div[@id='"+i+"']/div/h3/a/@href").toString();

//获取目标页面的节点信息,也就是herf链接

			//如果获取到,添加到待爬url
            if (str != null){
   
                page.addTargetRequest
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值