Java爬虫
Bowen_Yang
这个作者很懒,什么都没留下…
展开
-
Webmagic控制爬取深度
最近搞毕业设计,使用到了webmagic,但是才开始学习,对各个组件都还不是很熟悉。相信初学者都会遇到一个问题,那就是:必须要让所有URL都处理完,才能结束整个爬虫过程吗?当然,动动脑筋就知道当然不用,但是作为新手还是不知道怎么去控制这个爬虫,我一开始也是只会傻傻的设置一个最开始的url,然后写processs方法。但是经过不断的百度,渐渐加深了对webmagic的理解,也开始看起源码来...原创 2020-02-24 15:02:29 · 1771 阅读 · 0 评论 -
webMagic和phantomjs结合爬取JS动态生成的界面(Java爬虫)
https://www.bbsmax.com/A/kvJ362GQzg/经过一下午的折腾,找到了一篇写的好的文章,讲的是处理JS渲染的HTML界面,原文链接如上。webMagic虽然方便,但是也有它不适用的地方,比如定向的某个单页面爬虫,或者存在大量ajax请求,页面的跳转请求全都混淆在js里。这时可以用webMagic结合phantomjs来真实模拟页面请求,即不仅仅获取数据,...转载 2020-02-21 16:26:25 · 2496 阅读 · 1 评论