数据采集

最新推荐文章于 2024-03-09 18:12:15 发布

小小小泥鳅

最新推荐文章于 2024-03-09 18:12:15 发布

阅读量340

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/lyp3171790866/article/details/114845426

版权

第一步，在pycharm中选择一个文件夹，右击，出现一个 open in Terminal,控制台位置就出现了所在文件夹，类似的还有一个方法，在cmd中进入所在文件夹
第二步，在cmd输入scrapy startproject 工程项目 会自动生成一个框架会有一系列文件生成
第三步，先简单做个例子，scrapy genspider 爬虫脚本名称访问网站的域名 可以使用scrapy shell 网站Url地址测试网址是否可以爬虫，出现200即可；

在这里插入图片描述

第四步，修改settings文件，有四个地方；①ROBOTSTXT_OBEY = False （大概在20行左右）用于去掉限制 ②DOWNLOAD_DELAY = 3（28行左右，注释需打开）采集延迟 ③ SPIDER_MIDDLEWARES = { 'dataspider.middlewares.DataspiderSpiderMiddleware': 543 }（47行）④DOWNLOADER_MIDDLEWARES = { 'dataspider.middlewares.DataspiderDownloaderMiddleware': 543, }（53行） ⑤ITEM_PIPELINES = { 'dataspider.pipelines.DataspiderPipeline': 300, }（65行）

在这里插入图片描述

在这里插入图片描述

（没来得及完善有机会重写）

关注