scrapy运行

最新推荐文章于 2022-04-10 00:28:45 发布

田培融

最新推荐文章于 2022-04-10 00:28:45 发布

阅读量2.3k

点赞数

分类专栏： python 文章标签： scrapy scrapy爬虫 scrapy运行 python爬虫 python scrapy

本文链接：https://blog.csdn.net/u011296165/article/details/100970387

版权

python 专栏收录该内容

8 篇文章 2 订阅

订阅专栏

在上一文中我们使用pycharm创建了一个scrapy项目，并使用命令初始化了一个scrapy模板。这一文中我们就让这个scrapy爬虫脚本运行起来。

第一步在根路径下创建一个py文件

在这里插入图片描述
直接右击创建就可以。这个py文件的名称可以自定义。

第二步编写main.py文件内容。

#  execute 可以调用scrapy的执行脚本
from scrapy.cmdline import execute

import sys
import os
# os.path.abspath(__file__) 获取当前文件所在的路径
# os.path.dirname(os.path.abspath(__file__)) 获取当前文件所在的父目录

# 设置执行路径
sys.path.append(os.path.dirname(os.path.abspath(__file__)))

# 设置执行命令
execute(["scrapy", "crawl", "cnblogNews"])

第三步修改setting.py的配置

在这里插入图片描述

原来是true，现在改为False.

下面是摘自百度的robots协议的解释

robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。

第四步运行

在main.py中，右击运行就可以了。
在这里插入图片描述

田培融

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
scrapy运行

在上一文中我们使用pycharm创建了一个scrapy项目，并使用命令初始化了一个scrapy模板。这一文中我们就让这个scrapy爬虫脚本运行起来。第一步在根路径下创建一个py文件直接右击创建就可以。这个py文件的名称可以自定义。第二步编写main.py文件内容。# execute 可以调用scrapy的执行脚本from scrapy.cmdline import execu...
复制链接

扫一扫