项目场景:
最近项目种需要我去搜索引擎上按需求搜索网页并将其内容爬取出来,在爬取过程生成html文件时遇到一些问题,现在记录下来
问题描述:
1.爬取到部分页面加载速度满,或者不能加载出来;
2. 一些页面出现中文乱码
注:此次用到的技术包括webmagic,jsoup等页面抓取技术,webmagic通过Spider将目标url添加,并且复写process方法,参数为目标url的page,在这个方法里,可以通过xpath来获取各个节点的信息,我是通过这个方法将百度搜索的列表种的herf链接获取到,并将这些链接添加到待爬取的目标页面中,process方法类似递归方法,将目标url添加到待爬取的队列中后,继续执行process的方法.
String str = page.getHtml().xpath("//div[@id=wrapper_wrapper]/div[@id=container]/div[@id=content_left]/div/div[@id='"+i+"']/div/h3/a/@href").toString();
//获取目标页面的节点信息,也就是herf链接
//如果获取到,添加到待爬url
if (str != null){
page.addTargetRequest

最低0.47元/天 解锁文章

2937

被折叠的 条评论
为什么被折叠?



