【python学习】scrapy爬虫框架学习

最新推荐文章于 2022-10-27 08:15:00 发布

左上晨

最新推荐文章于 2022-10-27 08:15:00 发布

阅读量240

点赞数

分类专栏： python 文章标签： python scrapy

本文链接：https://blog.csdn.net/qq_43285577/article/details/103762089

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

scrapy学习，可以参考：scrapy1.5中文文档，http://www.scrapyd.cn/doc/

1）创建项目

指定文件夹目录创建项目，cmd进入文件夹路径，使用命令： scrapy startproject 项目名

创建成功后的项目目录结构：

2）编写第一个蜘蛛，参考：http://www.scrapyd.cn/doc/140.html

import scrapy


class mingyan(scrapy.Spider):  # 需要继承scrapy.Spider类

    name = "mingyan2"  # 定义蜘蛛名（crwal后的名称）

    start_urls = ['http://lab.scrapyd.cn']

    def parse(self, response):
        mingyan = response.css('div.quote')

        for v in mingyan:  # 循环获取每一条名言里面的：名言内容、作者、标签

            text = v.css('.text::text').extract_first()  # 提取名言
            autor = v.css('.author::text').extract_first()  # 提取作者
            tags = v.css('.tags .tag::text').extract()  # 提取标签
            tags = ','.join(tags)  # 数组转换为字符串


            #保存
            fileName = '%s-语录.txt' % autor  # 爬取的内容存入文件，文件名为：作者-语录.txt
            with open(fileName, "a+") as f:  # 不同人的名言保存在不同的txt文档，“a+”以追加的形式
                f.write(text)
                f.write('\n')  # ‘\n’ 表示换行
                f.write('标签：' + tags)
                f.write('\n-------\n')
                f.close()

3）pycharm中运行Scrapy爬虫项目，参考：https://www.cnblogs.com/llssx/p/8378832.html

定义一个py，如下：

from scrapy import cmdline

# 参数三为爬虫的名字name
cmdline.execute(['scrapy', 'crawl', 'mingyan2'])

4）scrapy提取数据：

1. css选择器
2. scrapy提取数据：xpath选择器

5）scrapy命令

左上晨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【python学习】scrapy爬虫框架学习

scrapy学习，可以参考：scrapy1.5中文文档，http://www.scrapyd.cn/doc/1）创建项目指定文件夹目录创建项目，cmd进入文件夹路径，使用命令： scrapy startproject 项目名创建成功后的项目目录结构： 2）编写第一个蜘蛛，参考：http://www.scrapyd.cn/doc/140.htmlimpo...
复制链接

扫一扫

专栏目录