新浪网首页新闻资讯爬虫项目

最新推荐文章于 2024-05-20 21:35:11 发布

iceburg-blogs

最新推荐文章于 2024-05-20 21:35:11 发布

阅读量1.9k

点赞数 4

分类专栏：爬虫技术文章标签：爬虫

本文链接：https://blog.csdn.net/eagleuniversityeye/article/details/88951817

版权

本文介绍了一个使用Python Scrapy框架开发的新浪网首页新闻资讯爬虫项目，详细阐述了从创建项目到实现爬取三级内容的过程，包括设置Scrapy项目、创建爬虫、完善items和pipelines，以及如何启动和运行爬虫。目标是爬取新闻大类下的各类别和文章，并按类别组织存储结果。

摘要由CSDN通过智能技术生成

一.项目简介

该爬虫是使用Python框架Scrapy开发，用来爬取新浪网首页分类的爬虫项目，适合新手用来学习Scrapy框架的使用及开发流程。
爬虫的目标网站地址：http://news.sina.com.cn/guide/
项目一共要爬取三级内容，分别是大类，小类，小类中的资讯文章。如下图所示，新闻，体育是一个大类，新闻大类下有国内，国际，社会等几个小类
在这里插入图片描述
在国际小类中，有很多资讯文章，该爬虫的最终目标就是爬取这些资讯文章的内容。

我们需要做的工作是为每个大类创建一个文件夹，每个大类的文件夹下为其对应的小类再创建一个子文件夹，然后将资讯文件存储到对应的小类文件夹中
最终效果展示：
在这里插入图片描述

二.项目过程

1.使用命令创建Scrapy爬虫项目

首先要安装Scrapy框架，Scrapy的安装在我的另一篇博客：https://blog.csdn.net/eagleuniversityeye/article/details/80644804

scrapy startproject mySpider

2.使用命令创建sina爬虫

scrapy genspider sina

3.完善sina爬虫

class SinaSpider(scrapy.Spider):
    name = "sina"
    allowed_domains = ["sina.com.cn"]
    start_urls = [
        "http://news.sina.com.cn/guide/"
    ]

    def parse(self, response):
        items = []
        # 所有大类的url 和 标题
        parentUrls = response.xpath('//div[@id=\"tab01\"]/div/h3/a/@href').extract()
        parentTitle = response.xpath("//div[@id=\"tab01\"]/div/h3/a/text()").extract()

        # 所有小类的ur 和 标题
        subUrls = response.xpath('//div[@id=\"tab01\"]/div/ul/li/a/@href').extract()
        subTitle = response.xpath('//div[@id=\"tab01\"]/div/ul/li/a/text()').extract()

        # 爬取所有大类
        for i in range(0, len(parentTitle)):
            # 指定大类目录的路径和目录名

最低0.47元/天解锁文章

iceburg-blogs

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
新浪网首页新闻资讯爬虫项目

一.项目简介该爬虫是使用Python框架Scrapy开发，用来爬取新浪网首页分类的爬虫项目，适合新手用来学习Scrapy框架的使用及开发流程。爬虫的目标网站地址：http://news.sina.com.cn/guide/项目一共要爬取三级内容，分别是大类，小类，小类中的资讯文章。如下图所示，新闻，体育是一个大类，新闻大类下有国内，国际，社会等几个小类在国际小类中，有很多资讯文章，该爬虫...
复制链接

扫一扫

专栏目录