山东大学舆情分析系统第四次更新报告——4月6日

本次更新报告介绍了山东大学舆情分析系统的爬虫模块改进,包括一级爬虫新增搜狗搜索引擎的爬取和信息数据来源爬取,二级爬虫采用Scrapy框架增强百度新闻爬虫功能。算法模块增加了获取关键词数据源和相关关键词分布的方法,以及数据库操作。此外,系统网页部分将使用springMVC+vue+echarts,爬虫部分负责人变更并扩大团队,预计处理5000条数据。
摘要由CSDN通过智能技术生成


一、爬虫模块

一级爬虫更新

  • 新增对搜狗搜索引擎的爬取
  • 所有一级爬虫增加对信息数据来源的爬取

二级爬虫更新

本周基本完成了scrapy爬虫框架的开发,增强了百度新闻爬虫的功能,使其可以对网页完成二级爬取。后续将以此模板,探索通用性爬虫。

用于存储数据的数据结构:

class SpiderBaiduItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    source = scrapy.Field()
    timestamp = scrapy.Field()
    detail = scrapy.Field()

在爬虫文件内处理网站的结构以及后续的储存,相关代码:

import scrapy
from ..items import SpiderBaiduItem
import datetime

class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    # allowed_domains = ['baidu.com']
    start_urls = ['https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&rsv_dl=ns_'
                  'pc&word=%E5%B1%B1%E4%B8%9C%E5%A4%A7%E5%AD%A6&x_bfe_rqs=03E80&x_bfe_tjscore=0.100000&'
                  'tngroupname=organic_news&newVideo=12&pn=0']
    url = 'https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&rsv_dl=ns_'\
          'pc&word=%E5%B1%B1%E4%B8%9C%E5%A4%A7%E5%AD%A6&x_bfe_rqs=03E80&x_bfe_tjscore=0.100000&'\
          'tngroupname=organic_news&newVideo=12&pn={}'
    page = 0

    def parse(self, response):
        # 在一级界面中,获取网页上的标题,链接,来源,时间戳
        # items储存网页信息
        # print('当前网页的源码为: ' + response.body_as_unicode())
        # print(response.xpath("//div[@class='result-op c-container xpath-log new-pmd']//h3//a/text()"))
        current_time = datetime.datetime.now()
        times 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值