爬虫实际应用(1)

1.运行爬虫脚本命令
#编写爬虫脚本时,需要给脚本取一个名字
scrapy crawl name
2.进入调试界面
#该命令会进入到https://movie.douban.com/top250网页的调试界面
scrapy shell https://movie.douban.com/top250
#该命令直接进入到脚脚本的调试界面
python manage.py shell
3.如何寻找代理

开发者工具–Network-All-Headers-Request Headers中找到User-Agent

4.问题:导入from douban.items import MovieItem提示找不到uitems

解决:打开了错误的文件,需要打开上一级包含scapy.cfg的文件夹

5.No module named ‘win32api’

安装:pip install pypiwin32

6.获取爬虫数据

具体可以参考:https://blog.csdn.net/lanhaixuanvv/article/details/78565877

#通过response.css获取到的是一个列表
(1).>>> response.css('title') 

[<Selector xpath='descendant-or-self::title' data='<title>爬虫实验室 - SCRAPY中文网提供</title>'>]
#通过extract获取到title这个标签列表
(2).>>> response.css('title').extract() 

['<title>爬虫实验室 - SCRAPY中文网提供</title>']
#如果只要title标签不要列表,采用extract()[0]来进行获取.[0]获取的是列表的第一个元素
(3)>>>  response.css('title').extract()[0] 

'<title>爬虫实验室 - SCRAPY中文网提供</title>'
#extract_first()效果和extract()[0]一样,只是更简洁
(4)>>>  response.css('title').extract_first()

 '<title>爬虫实验室 - SCRAPY中文网提供</title>'
#采用以上extract_first()或者extract()[0]获取到的还是列表
#但我们只需要文本部分,所以采用以下title::text方法获取到文本,到此我们也就成功获取到文本内容
(5)>>> response.css('title::text').extract_first()


'爬虫实验室 - SCRAPY中文网提供'
7.将爬虫数据在保存在excel表中命令
#name表示脚本的名字,name1表示给我们要导出的excel表取得名字
scrapy crawl name-o name1.csv
8.退出调试
#直接在命令行输入quit进行退出
quit()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值