什么叫“半爬虫”呢?这是我自己给这类小爬虫的命名。
比如,有的网站,是动态渲染的,你只需要主页面的部分代码,不需要大动干戈的再用selenium测试一番,只需要在浏览器抓包“检查”中,把需要的代码范围的上一层复制一下,保存在本地txt(utf-8编码)中,然后用本爬虫解析就可以啦!
比如,我要下载《小猪佩奇》的241-250集(http://tv.sohu.com/s2015/fhzxm/),就只用把相应范围的代码复制到本地,在用本爬虫解析就行啦!
这是本地文件:
需要的局部html代码为:
<ul class="serielist tebbcon" style="display: block;"><li><em class="num">241</em><a href="//tv.sohu.com/v/MjAyMDA3MDkvbjYwMDg3OTc1Mi5zaHRtbA==.html" target="_blank" class="fs14 s-tit">第241集:猪爷爷的池塘</a></li><li><em class="num">242</em><a href="//tv.sohu.com/v/MjAyMDA3MDkvbjYwMDg3OTc1NC5zaHRtbA==.html" target="_blank" class="fs14 s-tit">第242集:在很久以前</a&g