爬取某一个网页所有某类型文件
项目地址:https://github.com/fly-dragon211/spider
爬取某一个网页所有某类型文件,使用requests库,可以添加代理,
文件头等。
spider.py给出的示例是爬取李宏毅2017年机器学习的课件。
爬取github一个网页的pdf文件
以爬取下面网址pdf文件示例
https://github.com/zhanwen/MathModel/tree/master/%E5%9B%BD%E8%B5%9B%E8%AE%BA%E6%96%87/2016%E5%B9%B4%E4%BC%98%E7%A7%80%E8%AE%BA%E6%96%87/E
对于github上面文件,需要进行地址替换,详情见
spider.GetOnePageGithub类。(其实我觉得直接
git clone更方便, 但是折腾一下哈哈哈)
代码见 github_spider