1.运行爬虫脚本命令
#编写爬虫脚本时,需要给脚本取一个名字
scrapy crawl name
2.进入调试界面
#该命令会进入到https://movie.douban.com/top250网页的调试界面
scrapy shell https://movie.douban.com/top250
#该命令直接进入到脚脚本的调试界面
python manage.py shell
3.如何寻找代理
开发者工具–Network-All-Headers-Request Headers中找到User-Agent
4.问题:导入from douban.items import MovieItem提示找不到uitems
解决:打开了错误的文件,需要打开上一级包含scapy.cfg的文件夹
5.No module named ‘win32api’
安装:pip install pypiwin32
6.获取爬虫数据
具体可以参考:https://blog.csdn.net/lanhaixuanvv/article/details/78565877
#通过response.css获取到的是一个列表
(1).>>> response.css('title')
[<Selector xpath='descendant-or-self::title' data='<title>爬虫实验室 - SCRAPY中文网提供</title>'>]
#通过extract获取到title这个标签列表
(2).>>> response.css('title').extract()
['<title>爬虫实验室 - SCRAPY中文网提供</title>']
#如果只要title标签不要列表,采用extract()[0]来进行获取.[0]获取的是列表的第一个元素
(3)>>> response.css('title').extract()[0]
'<title>爬虫实验室 - SCRAPY中文网提供</title>'
#extract_first()效果和extract()[0]一样,只是更简洁
(4)>>> response.css('title').extract_first()
'<title>爬虫实验室 - SCRAPY中文网提供</title>'
#采用以上extract_first()或者extract()[0]获取到的还是列表
#但我们只需要文本部分,所以采用以下title::text方法获取到文本,到此我们也就成功获取到文本内容
(5)>>> response.css('title::text').extract_first()
'爬虫实验室 - SCRAPY中文网提供'
7.将爬虫数据在保存在excel表中命令
#name表示脚本的名字,name1表示给我们要导出的excel表取得名字
scrapy crawl name-o name1.csv
8.退出调试
#直接在命令行输入quit进行退出
quit()