爬虫实际应用(1)

最新推荐文章于 2023-12-22 10:51:38 发布

会编程的漂亮小姐姐

最新推荐文章于 2023-12-22 10:51:38 发布

阅读量4.5k

点赞数

分类专栏： Python 学习总结

本文链接：https://blog.csdn.net/u014229742/article/details/81001242

版权

Python 同时被 2 个专栏收录

171 篇文章 2 订阅

订阅专栏

学习总结

115 篇文章 0 订阅

订阅专栏

1.运行爬虫脚本命令

#编写爬虫脚本时,需要给脚本取一个名字
scrapy crawl name

2.进入调试界面

#该命令会进入到https://movie.douban.com/top250网页的调试界面
scrapy shell https://movie.douban.com/top250

#该命令直接进入到脚脚本的调试界面
python manage.py shell

3.如何寻找代理

开发者工具–Network-All-Headers-Request Headers中找到User-Agent

4.问题:导入from douban.items import MovieItem提示找不到uitems

解决:打开了错误的文件,需要打开上一级包含scapy.cfg的文件夹

5.No module named ‘win32api’

安装:pip install pypiwin32

6.获取爬虫数据

具体可以参考:https://blog.csdn.net/lanhaixuanvv/article/details/78565877

#通过response.css获取到的是一个列表
(1).>>> response.css('title') 

[<Selector xpath='descendant-or-self::title' data='<title>爬虫实验室 - SCRAPY中文网提供</title>'>]

#通过extract获取到title这个标签列表
(2).>>> response.css('title').extract() 

['<title>爬虫实验室 - SCRAPY中文网提供</title>']

#如果只要title标签不要列表,采用extract()[0]来进行获取.[0]获取的是列表的第一个元素
(3)>>>  response.css('title').extract()[0] 

'<title>爬虫实验室 - SCRAPY中文网提供</title>'

#extract_first()效果和extract()[0]一样,只是更简洁
(4)>>>  response.css('title').extract_first()

 '<title>爬虫实验室 - SCRAPY中文网提供</title>'

#采用以上extract_first()或者extract()[0]获取到的还是列表
#但我们只需要文本部分,所以采用以下title::text方法获取到文本,到此我们也就成功获取到文本内容
(5)>>> response.css('title::text').extract_first()


'爬虫实验室 - SCRAPY中文网提供'

7.将爬虫数据在保存在excel表中命令

#name表示脚本的名字,name1表示给我们要导出的excel表取得名字
scrapy crawl name-o name1.csv

8.退出调试

#直接在命令行输入quit进行退出
quit()

会编程的漂亮小姐姐

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录