本帖最后由 lihaisanhui 于 2020-3-16 15:50 编辑
说明:我又来了!!!这次写的是站长之家的icon图标爬虫
这是一个坛友定做,我花了1上午赶工出来的,写的不好勿喷!数据源:http://sc.chinaz.com/tubiao/index.html
第一版只能爬icon图标,下一个版本会支持站长之家所有图片素材下载!
使用方法:输入要爬取的页数,然后等待。。。
截图:
提醒:
下载目录:./icons
缓存目录[请勿删除,否则下次从头下载]:./cache
解压后运行ico_spider.exe
源码:
思路:其实就是爬取网站自带的下载链接并下载(下载的是压缩包),然后解压、重命名
网站分为列表页和内页,我们要的下载链接就在内页(且是明文、静态),这就非常容易了
import requests,rarfile,os
from lxml import etree
from time import time
class Spider():
def __init__(self):
self.host='http://sc.chinaz.com/tubiao/index{