Scrapy—第一个scrapy程序

最新推荐文章于 2022-12-06 11:41:08 发布

HQ_JSY

最新推荐文章于 2022-12-06 11:41:08 发布

阅读量358

点赞数

分类专栏： Scrapy

本文链接：https://blog.csdn.net/JSYhq/article/details/88751876

版权

Scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、spider文件编写

执行完scrapy genspider 应用名称爬取网页的起始url 例如：scrapy genspider qiubai www.qiushibaike.com）会在spiders文件夹产生一个和应用同名的.py文件

# -*- coding: utf-8 -*-
import scrapy

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai' #应用名称
    #允许爬取的域名（如果遇到非该域名的url则爬取不到数据）
    allowed_domains = ['https://www.qiushibaike.com/']
    #起始爬取的url
    start_urls = ['https://www.qiushibaike.com/']

     #访问起始URL并获取结果后的回调函数，该函数的response参数就是向起始的url发送请求后，获取的响应对象.该函数返回值必须为可迭代对象或者NUll 
     def parse(self, response):
        print(response.text) #获取字符串类型的响应内容
        print(response.body)#获取字节类型的相应内容

二、设置settings.py配置文件

修改内容及其结果如下：
19行：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' # 伪装请求载体身份

22行：ROBOTSTXT_OBEY = False  # 可以忽略或者不遵守robots协议
37行：#COOKIES_ENABLED = False # 默认是注释的;表示可自动使用session;也可改为True

三、执行爬虫程序

scrapy crawl 爬虫名称 ：该种执行形式会显示执行的日志信息
scrapy crawl 爬虫名称 --nolog：该种执行形式不会显示执行的日志信息

四、实例

# -*- coding: utf-8 -*-
import scrapy

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    allowed_domains = ['https://www.qiushibaike.com/']
    start_urls = ['https://www.qiushibaike.com/']

    def parse(self, response):
        #xpath为response中的方法，可以将xpath表达式直接作用于该函数中
        odiv = response.xpath('//div[@id="content-left"]/div')
        content_list = [] #用于存储解析到的数据
        for div in odiv:
            #xpath函数返回的为列表，列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()函数将解析的内容从Selecor中取出。
            author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract()
            content=div.xpath('.//div[@class="content"]/span/text()')[0].extract()

            #将解析到的内容封装到字典中
            dic={
                '作者':author,
                '内容':content
            }
            #将数据存储到content_list这个列表中
            content_list.append(dic)

        return content_list

HQ_JSY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy—第一个scrapy程序

一、spider文件编写执行完scrapy genspider 应用名称爬取网页的起始url 例如：scrapy genspider qiubai www.qiushibaike.com）会在spiders文件夹产生一个和应用同名的.py文件# -*- coding: utf-8 -*-import scrapyclass QiubaiSpider(scrapy....
复制链接

扫一扫

专栏目录