【Python】使用Scrapy新建一个爬虫项目并爬取数据

今天读论文了吗

已于 2023-09-05 12:47:01 修改

阅读量784

点赞数 1

分类专栏： python 文章标签：爬虫 scrapy python

于 2022-12-27 22:12:58 首次发布

本文链接：https://blog.csdn.net/qq_42595835/article/details/128461794

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

打开cmd，cd到E盘（也可以是你自己选择的任何一个文件夹下），：

scrapy startproject mySpider

在这里插入图片描述
会建立这样的文件目录

用pycharm打开项目，目录结构展示如下：

这些文件的作用如下：

mySpider/: 项目的Python模块，将会从这里引用代码。
mySpider/spiders/: 存储爬虫代码目录。
mySpider/__init__.py: 初始化文件。
mySpider/items.py: 项目的目标文件。
mySpider/middlewares.py: 中间件。
mySpider/pipelines.py: 项目的管道文件。
mySpider/settings.py: 项目的设置文件。
scrapy.cfg: 项目的配置文件。
external libraries和scratches and consoles不用管，每个python项目都有

打开cmd，cd到mySpider/spiders下，设置我们的爬虫：

scrapy genspider taobao "www.taobao.com"

其中taobao就是爬虫名字，"www.taobao.com"是我们要爬取的域名。
在这里插入图片描述
当然你也可以直接新建taobao.py文件并自行编写相关代码。
接下来就是编写parse函数，我们一般会先判断是否能抓取到目标网页中某个元素的信息，借助Xpath Helper，我们在终端输入：

scrapy shell "完整的url"
response.xpath("目标元素的xpath表达式")
or
response.xpath("目标元素的xpath表达式")[0].extract()

例子：
scrapy shell "https://www.taobao.com/"
response.xpath("//title")
"//title"这句话，是xpath表达式，通过Xpath Helper在目标网页上获取的.
关于如何获取到想要的元素，需要百度一下xpath表达式

在这里插入图片描述

发现可以获取得到结果，接下来就可以写parse函数了

class TaobaoSpider(scrapy.Spider):
    name = 'taobao'
    allowed_domains = ['www.taobao.com']
    start_urls = ['http://www.taobao.com/']

    def parse(self, response):
        title =response.xpath("//title/text()").extract()
        print(title)