之前使用过requests爬取电影天堂,BT天堂,爱下电影这三个网站的电影下载链接,自己手写爬虫其实比较复杂,所以这里使用scrapy框架来执行该操作
Step 1 创建scrapy项目
有很多种方法执行该操作,这里用cmd建立工程以及模板。在命令提示行中输入下列指令
此时在该目录中就生成了一个scrapy项目,这里我的项目就存放在f盘根目录下
然后创建爬虫模板,这里因为只需要爬虫部分链接所以用basic类型就够了。在命令提示行中打开项目文件输入以下语句
自此项目建立完成
Step 2 修改Setting.py,items.py
在项目文件下会有一个setting.py文件,打开,修改这一项
scrapy提供了一个生成字典类型的文件items.py,其中的xxxItems类可以存放爬取到的的相关数据,这里并未使用到