简单爬取搜狐新闻的数据

最新推荐文章于 2021-12-09 01:00:09 发布

韩淼燃

最新推荐文章于 2021-12-09 01:00:09 发布

阅读量1.5k

点赞数

分类专栏： python怕虫项目课程文章标签： scrapy 搜狐

本文链接：https://blog.csdn.net/weixin_36691991/article/details/89944778

版权

python怕虫项目课程专栏收录该内容

18 篇文章 10 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍如何利用Python的Scrapy框架爬取搜狐新闻网站的数据，包括设置项目、编写爬虫、解析HTML以及数据保存等步骤，让你轻松掌握网络爬虫的基本运用。

摘要由CSDN通过智能技术生成

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class SouhuSpiderSpider(CrawlSpider):
    name = 'souhu_spider'
    # allowed_domains = ['http://www.sohu.com/']
    start_urls = ['http://www.sohu.com//']

    rules = (
        # Rule(LinkExtractor(allow='http://.*?\.sohu\.com/\?\w+'), follow=True),
        Rule(LinkExtractor(allow='http://www\.sohu\.com/\w+/\w+?\w+'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        item = {}
        item['title'] = response.xpath('//div[@class="text-title

了解本专栏