爬虫
文章平均质量分 80
gaoshayo
这个作者很懒,什么都没留下…
展开
-
scrapy项目:爬取豆瓣畅销书排行榜内容(仅爬取2020年1-3页:无保存)
目标如题先进入cmd进入想要创建项目的文件夹,例如cd C:\Users\MI\Desktop\python学习\python爬虫学习内容\13_scrapy1然后在cmd输入 crapy startproject dangdang这样就创建了一个scrapy的项目框架如下图进入douban再进入douban文件夹(子)spider文件夹内部:其中的bestseller.py , main.py文件在创建scrapy框架时时没有的,后续会提到创建框架部分说完了。接着是代码部分原创 2021-09-09 15:39:09 · 262 阅读 · 0 评论 -
scrapy框架使用流程
scrapy介绍上面的这张图是Scrapy的整个结构。你可以把整个Scrapy框架看成是一家爬虫公司。最中心位置的Scrapy Engine(引擎)就是这家爬虫公司的大boss,负责统筹公司的4大部门,每个部门都只听从它的命令,并只向它汇报工作。我会以爬虫流程的顺序来依次跟你介绍Scrapy爬虫公司的4大部门。Scheduler(调度器)部门主要负责处理引擎发送过来的requests对象(即网页请求的相关信息集合,包括params,data,cookies,request headers…等),会把原创 2021-09-08 23:18:06 · 2810 阅读 · 2 评论 -
python:爬虫selenium入门
注意事项:如果打开网页自动关闭的话,是运行方式不对。操作如下在程序框内右键,选择 在终端运行python文件。 或者界面右上角的三角形选择python运行原创 2021-09-04 10:37:39 · 110 阅读 · 0 评论