新浪网首页新闻资讯爬虫项目

本文介绍了一个使用Python Scrapy框架开发的新浪网首页新闻资讯爬虫项目,详细阐述了从创建项目到实现爬取三级内容的过程,包括设置Scrapy项目、创建爬虫、完善items和pipelines,以及如何启动和运行爬虫。目标是爬取新闻大类下的各类别和文章,并按类别组织存储结果。
摘要由CSDN通过智能技术生成

一.项目简介

该爬虫是使用Python框架Scrapy开发,用来爬取新浪网首页分类的爬虫项目,适合新手用来学习Scrapy框架的使用及开发流程。
爬虫的目标网站地址:http://news.sina.com.cn/guide/
项目一共要爬取三级内容,分别是大类,小类,小类中的资讯文章。如下图所示,新闻,体育是一个大类,新闻大类下有国内,国际,社会等几个小类
在这里插入图片描述
在国际小类中,有很多资讯文章,该爬虫的最终目标就是爬取这些资讯文章的内容。
在这里插入图片描述
我们需要做的工作是为每个大类创建一个文件夹,每个大类的文件夹下为其对应的小类再创建一个子文件夹,然后将资讯文件存储到对应的小类文件夹中
最终效果展示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二.项目过程

1.使用命令创建Scrapy爬虫项目

首先要安装Scrapy框架,Scrapy的安装在我的另一篇博客:https://blog.csdn.net/eagleuniversityeye/article/details/80644804

scrapy startproject mySpider

2.使用命令创建sina爬虫

scrapy genspider sina

3.完善sina爬虫

class SinaSpider(scrapy.Spider):
    name = "sina"
    allowed_domains = ["sina.com.cn"]
    start_urls = [
        "http://news.sina.com.cn/guide/"
    ]

    def parse(self, response):
        items = []
        # 所有大类的url 和 标题
        parentUrls = response.xpath('//div[@id=\"tab01\"]/div/h3/a/@href').extract()
        parentTitle = response.xpath("//div[@id=\"tab01\"]/div/h3/a/text()").extract()

        # 所有小类的ur 和 标题
        subUrls = response.xpath('//div[@id=\"tab01\"]/div/ul/li/a/@href').extract()
        subTitle = response.xpath('//div[@id=\"tab01\"]/div/ul/li/a/text()').extract()

        # 爬取所有大类
        for i in range(0, len(parentTitle)):
            # 指定大类目录的路径和目录名
          
  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值