查看网站的爬虫权限
域名+robots.txt
https://www.taobao.com/robots/
selenium模块安装
在谷歌浏览器输入
chrome://version/
下载地址(需要翻墙):
http://chromedriver.storage.googleapis.com/index.html
选择对应的版本下载
scrapy创建工程
settings.py设定
ROBOTSTXT_OBEY = False
user_agent
cd 到指定位置
scrapy startproject name
新建爬虫源文件
cd 到spider文件夹下
genspider first www.xxx.com
执行
scrapy crawl first
存储