# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class SouhuSpiderSpider(CrawlSpider):
name = 'souhu_spider'
# allowed_domains = ['http://www.sohu.com/']
start_urls = ['http://www.sohu.com//']
rules = (
# Rule(LinkExtractor(allow='http://.*?\.sohu\.com/\?\w+'), follow=True),
Rule(LinkExtractor(allow='http://www\.sohu\.com/\w+/\w+?\w+'), callback='parse_item', follow=True),
)
def parse_item(self, response):
item = {}
item['title'] = response.xpath('//div[@class="text-title
简单爬取搜狐新闻的数据
最新推荐文章于 2021-12-09 01:00:09 发布
本文介绍如何利用Python的Scrapy框架爬取搜狐新闻网站的数据,包括设置项目、编写爬虫、解析HTML以及数据保存等步骤,让你轻松掌握网络爬虫的基本运用。
摘要由CSDN通过智能技术生成