最近有朋友问我,百度文库该怎么爬,尝试了一下,发现规律还是挺明显的,下面是ppt的爬虫,其他类型的未完待续 功能:根据id来获取图片内容,并实现ppt图片转pdf basespider 如下: ppt爬虫如下