Scrapy爬虫框架入门案例入门demo

最新推荐文章于 2023-10-09 11:23:32 发布

fallwind_of_july

最新推荐文章于 2023-10-09 11:23:32 发布

阅读量555

点赞数 1

分类专栏： python 文章标签： python scrapy

本文链接：https://blog.csdn.net/fallwind_of_july/article/details/97110488

版权

python 专栏收录该内容

10 篇文章 4 订阅

订阅专栏

本实例比较简单，附代码，可以直接运行爬取

爬取网站：

https://www.liaoxuefeng.com/wiki/1016959663602400
这是廖雪峰老师的官方网站，我们爬取左侧的目录
在这里插入图片描述

运行所需的环境：

python3
anaconda
scrapy

具体步骤：

1.打开cmd命令行，输入scrapy startproject liaoxuefeng

然后得到如下输出
在这里插入图片描述
然后我们输入cd liaoxuefeng，进入到目录中，然后先放着。

2.打开项目中的liaoxuefeng/liaoxuefeng/spiders目录，然后在spiders目录下创建一个新文件命名为`liaoxuefeng.py`，在其中写入如下代码：

import scrapy

class LiaoxuefengSpider(scrapy.Spider):
    # 这里是将爬虫定义为scrapy.Spider这个类下的一个实例。
    # Spider这个类定义了爬虫的很多基本功能，我们直接实例化就好，
    # 省却了很多重写方法的麻烦。
    name = 'lxf'
    #这是爬虫的名字，这个非常重要。
    start_urls = ['http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000']
    #这是爬虫开始干活的地址，必须是一个可迭代对象。

    def parse(self, response):
    #爬虫收到上面的地址后，就会发送requests请求，在收到服务器返回的内容后，就将内容传递给parse函数。在这里我们重写函数，达到我们想要的功能。
        titles = response.xpath("//ul[@class='uk-nav uk-nav-side']//a/text()").extract()
        #这是廖雪峰老师python教程的标题列表。我们利用xpath解析器对收到的response进行分析，从而提取出我们需要的数据。//XXX表示任何任何目录下的XXX区块，/XXX表示子目录下的XXX区块，XXX[@class=abc]表示带有class=abc属性值的XXX区块，/text()表示获取该区块的文本。最后加上.extract()表示将内容提取出来。
        for title in titles:
            print (title)
        #这个没什么说的了，直接遍历，然后打印标题。