SEU官方新闻数据爬取 MongoDB存储

本文介绍了一款爬虫的实现过程,该爬虫用于抓取东南大学(SEU)官网的新闻数据,并将其存储到MongoDB数据库中。首先分析了官网新闻页面的结构,接着详细阐述了如何针对特定新闻链接爬取内容,最后讲述了如何将抓取的数据有效写入数据库。
摘要由CSDN通过智能技术生成


前言

爬虫Spider讲解,将以爬取SEU大学官网新闻为例


提示:以下是本篇文章正文内容,下面案例可供参考

一、爬虫整体流程

  1. 分析SEU官网新闻页面
  2. 分析具体新闻页面
  3. 爬取存储mongoDB数据库

二、具体步骤

1.分析SEU官网新闻页面

SEU新闻官网
发现新闻网分为了多个栏目(头条新闻、东大要闻 … \dots

每一个栏目对应一个数字,我们可以遍历栏目爬取所有新闻 以下为头条新闻页面分析

在这里插入图片描述

代码如下(示例):

    def getLinksList(self, url):
        """
        given a sourceUrl,get all news urls
        :param url:新闻源链接,及各个板块新闻首页
        :return: linksList
        """
        urls = []
        response = requests.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值