jsoup
CccccwT �
这个作者很懒,什么都没留下…
展开
-
java爬周边信息解决方案
日前用java爬虫去爬取某些地理信息周边信息的时候,发现大部分网站的周边信息都是预加载页面,用js去调API来实现,不同网站的具体实现方式还不同。所以我这边的解决方案为,先根据所搜目标的名称以及所在区域去调用百度API,获取经纬度,再根据经纬度去搜索周边信息,具体查看百度地图提供的公有API http://lbsyun.baidu.com/index.php?title=webapipack...原创 2019-10-17 17:36:21 · 382 阅读 · 0 评论 -
java爬虫遇到封IP问题
近期做java爬虫,爬某房产网站的时候,该网站对IP监测非常敏感,故需要对应的解决方案,且被封后不是405页面,而是一个纯白的空页面,所以爬下来的document是空的,在解析的时候才报错。解决方案是去西刺代理爬取IP,对IP进行筛选,筛选出可用的IP,放进redis做一IP池,在爬取页面的时候,遇到解析报错时,进行更换IP操作,再爬一次document,反复几次,连续报错就continue掉,...原创 2019-10-11 20:04:42 · 1740 阅读 · 0 评论