山东大学舆情分析系统第四次更新报告——4月6日

最新推荐文章于 2024-09-15 22:31:42 发布

山东大学與情分析系统项目博客

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量227

点赞数

文章标签： python 其他

本文链接：https://blog.csdn.net/m0_55760388/article/details/115469758

版权

本次更新报告介绍了山东大学舆情分析系统的爬虫模块改进，包括一级爬虫新增搜狗搜索引擎的爬取和信息数据来源爬取，二级爬虫采用Scrapy框架增强百度新闻爬虫功能。算法模块增加了获取关键词数据源和相关关键词分布的方法，以及数据库操作。此外，系统网页部分将使用springMVC+vue+echarts，爬虫部分负责人变更并扩大团队，预计处理5000条数据。

摘要由CSDN通过智能技术生成

一、爬虫模块

一级爬虫更新

新增对搜狗搜索引擎的爬取
所有一级爬虫增加对信息数据来源的爬取

二级爬虫更新

本周基本完成了scrapy爬虫框架的开发，增强了百度新闻爬虫的功能，使其可以对网页完成二级爬取。后续将以此模板，探索通用性爬虫。

用于存储数据的数据结构：

class SpiderBaiduItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    source = scrapy.Field()
    timestamp = scrapy.Field()
    detail = scrapy.Field()

在爬虫文件内处理网站的结构以及后续的储存，相关代码：

import scrapy
from ..items import SpiderBaiduItem
import datetime

class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    # allowed_domains = ['baidu.com']
    start_urls = ['https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&rsv_dl=ns_'
                  'pc&word=%E5%B1%B1%E4%B8%9C%E5%A4%A7%E5%AD%A6&x_bfe_rqs=03E80&x_bfe_tjscore=0.100000&'
                  'tngroupname=organic_news&newVideo=12&pn=0']
    url = 'https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&rsv_dl=ns_'\
          'pc&word=%E5%B1%B1%E4%B8%9C%E5%A4%A7%E5%AD%A6&x_bfe_rqs=03E80&x_bfe_tjscore=0.100000&'\
          'tngroupname=organic_news&newVideo=12&pn={}'
    page = 0

    def parse(self, response):
        # 在一级界面中，获取网页上的标题，链接，来源，时间戳
        # items储存网页信息
        # print('当前网页的源码为: ' + response.body_as_unicode())
        # print(response.xpath("//div[@class='result-op c-container xpath-log new-pmd']//h3//a/text()"))
        current_time = datetime.datetime.now()
        times