【爬虫】scrapy数据解析

最新推荐文章于 2022-03-26 21:19:29 发布

yepoyou

最新推荐文章于 2022-03-26 21:19:29 发布

阅读量448

点赞数 1

分类专栏：爬虫 # Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_36182852/article/details/108041375

版权

Python 同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

爬虫

12 篇文章 0 订阅

订阅专栏

爬取如下：

步骤：

爬虫代码：

import scrapy


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # 解析作者名称、段子内容
        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')
        for div in div_list:
            author = div.xpath('./div[1]/a[2]/h2/text()')[0]
            content = div.xpath('./a[1]/div/span//text()')
            # 仅打印第一个作者和段子，查看返回内容
            print(author, content)
            break

修改配置文件：

查看结果：

修改代码：

import scrapy


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # 解析作者名称、段子内容
        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')
        for div in div_list:
            # extract()可以将selector对象中的data参数存储的字符串提取出来
            author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
            # 列表调用extract()之后，将列表中的每一个selector对象中data对应字符串提取出来
            content = div.xpath('./a[1]/div/span//text()').extract()
            # 仅打印第一个作者和段子，查看返回内容
            print(author, content)
            break

结果：

代码修改：

import scrapy


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # 解析作者名称、段子内容
        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')
        for div in div_list:
            # extract()可以将selector对象中的data参数存储的字符串提取出来
            author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
            # 列表调用extract()之后，将列表中的每一个selector对象中data对应字符串提取出来
            content = div.xpath('./a[1]/div/span//text()').extract()
            # 将列表转成字符串
            content = ''.join(content)
            # 仅打印第一个作者和段子，查看返回内容
            print(author, content)
            break

结果：

yepoyou

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【爬虫】scrapy数据解析

爬取如下：步骤：爬虫代码：import scrapyclass QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.xxx.com'] start_urls = ['https://www.qiushibaike.com/text/'] def parse(self, response): # 解析作者名称、段子内容 d...
复制链接

扫一扫

专栏目录