Python基于爬虫与文本挖掘的网络舆情监控系统(源码+vue+hadoop+hive+部署文档+可视化大屏展示等)

QQ1039692211

于 2024-10-08 14:57:01 发布

阅读量375

点赞数 5

分类专栏：大数据计算机毕业设计 python 文章标签： hadoop python 爬虫

本文链接：https://blog.csdn.net/QQ1039692211/article/details/142759965

版权

计算机毕业设计同时被 3 个专栏收录

1494 篇文章 146 订阅

订阅专栏

python

151 篇文章 17 订阅

订阅专栏

大数据

6 篇文章 0 订阅

订阅专栏

收藏关注不迷路！！

🌟文末获取源码+数据库🌟

感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人

前言

💗博主介绍：✨全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师，专注于Java/Python/小程序app/深度学习等计算机设计，主要对象是咱们计算机相关专业的大学生，希望您们都能前途无量！✨💗

👇🏻 精彩专栏推荐订阅👇🏻

计算机毕业设计设计精品实战案例✅

感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人

详细视频演示

文章底部名片，联系我看更详细的演示视频

项目介绍

基于爬虫与文本挖掘的网络舆情监控系统是一款先进的工具，旨在实时监测和分析互联网上的舆论动态。该系统利用强大的爬虫技术从各种网络资源中获取数据，然后通过文本挖掘算法对数据进行深入处理和分析，以揭示网络上的热点话题、情感倾向和关键信息。管理员可以通过系统主页管理和监控用户信息，确保系统的高效运行。用户则能够访问自己的主页，查看和管理个人信息，同时浏览爬取到的网络舆情数据，了解公众对于特定话题的看法和态度。该系统提供了全面而准确的网络舆情分析，帮助企业和组织更好地理解公众对其产品和服务的观点，从而做出明智的决策和调整。无论是对于企业的市场推广，还是对于政府的社会管理，这个系统都具有重要的应用价值。
系统采用B/S架构，Python语言作为主要开发语言，MySQL技术创建和管理数据库。通过系统，管理员使用日常浏览器即可随时完成网络舆情信息发布，契合网络舆情监控管理对时效性需求的同时提高工作效率。最终，根据各个功能模块的测试结果可知网络舆情监控系统功能基本完善。

技术介绍

开发语言：Python
python框架：Django
软件版本：python3.7/python3.8
数据库：mysql 5.7或更高版本
数据库工具：Navicat11
开发软件：PyCharm/vs code
前端框架:vue.js

功能介绍

根据日常实际需要，一方面需要在系统中实现基础信息的管理，同时还需要结合实际情况的需要，提供网络舆情监控管理功能，方便网络舆情监控管理工作的展开，综合考虑，本套系统应该满足如下要求：
首先，在系统中需要实现对基础信息，包括登录注册、个人信息修改等信息的管理，这些是系统的基础信息，和系统中其他内容密切相关。
然后，系统中需要实现对网络舆情的各项数据进行分析，允许管理员对系统进行必要的设置。

基于爬虫与文本挖掘的网络舆情监控系统的功能需求分析如下：
1.数据爬取：系统需要具备强大的网络爬虫功能，能够自动从各大社交媒体平台、新闻网站和论坛等网络资源中实时爬取数据。
2.数据处理：系统需要能够处理海量数据，包括数据清洗、去重和格式转换等操作，以便后续分析。
3.文本挖掘：系统需要具备文本挖掘功能，能够进行关键词提取、情感分析、主题建模等操作，以揭示网络舆情的关键信息。
4.数据分析：系统需要提供数据分析功能，包括数据统计、可视化展示和趋势预测等，以便用户了解网络舆情的整体情况和发展趋势。
5.报警机制：系统需要具备预警机制，能够根据用户设定的关键词或阈值，及时发送警报通知用户。
6.用户管理：系统需要提供用户管理功能，包括用户注册、登录、权限分配等操作，以保证系统的安全性和可靠性。
7.系统简介：系统需要提供详细的使用说明和帮助文档，方便用户快速上手和使用。
在这里插入图片描述

核心代码

# 数据爬取文件

import scrapy
import pymysql
import pymssql
from ..items import LvyoujingdianItem
import time
import re
import random
import platform
import json
import os
import urllib
from urllib.parse import urlparse
import requests
import emoji

# 旅游景点
class LvyoujingdianSpider(scrapy.Spider):
    name = 'lvyoujingdianSpider'
    spiderUrl = 'https://you.ctrip.com/sight/lanzhou231/s0-p{}.html'
    start_urls = spiderUrl.split(";")
    protocol = ''
    hostname = ''

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def start_requests(self):

        plat = platform.system().lower()
        if plat == 'linux' or plat == 'windows':
            connect = self.db_connect()
            cursor = connect.cursor()
            if self.table_exists(cursor, '5295r_lvyoujingdian') == 1:
                cursor.close()
                connect.close()
                self.temp_data()
                return

        pageNum = 1 + 1
        for url in self.start_urls:
            if '{}' in url:
                for page in range(1, pageNum):
                    next_link = url.format(page)
                    yield scrapy.Request(
                        url=next_link,
                        callback=self.parse
                    )
            else:
                yield scrapy.Request(
                    url=url,
                    callback=self.parse
                )

    # 列表解析
    def parse(self, response):
        
        _url = urlparse(self.spiderUrl)
        self.protocol = _url.scheme
        self.hostname = _url.netloc
        plat = platform.system().lower()
        if plat == 'windows_bak':
            pass
        elif plat == 'linux' or plat == 'windows':
            connect = self.db_connect()
            cursor = connect.cursor()
            if self.table_exists(cursor, '5295r_lvyoujingdian') == 1:
                cursor.close()
                connect.close()
                self.temp_data()
                return

        list = response.css('div.list_wide_mod2 div.list_mod2')
        
        for item in list:

            fields = LvyoujingdianItem()



            if '(.*?)' in '''dt a::attr(href)''':
                fields["laiyuan"] = re.findall(r'''dt a::attr(href)''', response.text, re.DOTALL)[0].strip()
            else:
                fields["laiyuan"] = self.remove_html(item.css('dt a::attr(href)').extract_first())
            if '(.*?)' in '''div.leftimg a img::attr(src)''':
                fields["fengmian"] = re.findall(r'''div.leftimg a img::attr(src)''', response.text, re.DOTALL)[0].strip()
            else:
                fields["fengmian"] = self.remove_html(item.css('div.leftimg a img::attr(src)').extract_first())
            if '(.*?)' in '''div.rdetailbox dl dt a::text''':
                fields["biaoti"] = re.findall(r'''div.rdetailbox dl dt a::text''', response.text, re.DOTALL)[0].strip()
            else:
                fields["biaoti"] = self.remove_html(item.css('div.rdetailbox dl dt a::text').extract_first())
            if '(.*?)' in '''b.hot_score_number::text''':
                fields["redu"] = re.findall(r'''b.hot_score_number::text''', response.text, re.DOTALL)[0].strip()
            else:
                fields["redu"] = self.remove_html(item.css('b.hot_score_number::text').extract_first())
            if '(.*?)' in '''dd.ellipsis::text''':
                fields["dizhi"] = re.findall(r'''dd.ellipsis::text''', response.text, re.DOTALL)[0].strip()
            else:
                fields["dizhi"] = self.remove_html(item.css('dd.ellipsis::text').extract_first())
            if '(.*?)' in '''a.score strong::text''':
                fields["pingfen"] = re.findall(r'''a.score strong::text''', response.text, re.DOTALL)[0].strip()
            else:
                fields["pingfen"] = self.remove_html(item.css('a.score strong::text').extract_first())
            if '(.*?)' in '''a.recomment::text''':
                fields["pinglun"] = re.findall(r'''a.recomment::text''', response.text, re.DOTALL)[0].strip()
            else:
                fields["pinglun"] = self.remove_html(item.css('a.recomment::text').extract_first())
            if '(.*?)' in '''p[class="bottomcomment ellipsis open_popupbox_a"]''':
                fields["dianping"] = re.findall(r'''p[class="bottomcomment ellipsis open_popupbox_a"]''', response.text, re.DOTALL)[0].strip()
            else:
                fields["dianping"] = self.remove_html(item.css('p[class="bottomcomment ellipsis open_popupbox_a"]').extract_first())

            detailUrlRule = item.css('dt a::attr(href)').extract_first()
            if self.protocol in detailUrlRule:
                pass
            elif detailUrlRule.startswith('//'):
                detailUrlRule = self.protocol + ':' + detailUrlRule
            else:
                detailUrlRule = self.protocol + '://' + self.hostname + detailUrlRule
                fields["laiyuan"] = detailUrlRule

            yield scrapy.Request(url=detailUrlRule, meta={'fields': fields},  callback=self.detail_parse, dont_filter=True)


    # 详情解析
    def detail_parse(self, response):
        fields = response.meta['fields']

        try:
            if '(.*?)' in '''<div class="baseInfoItem"><p class="baseInfoTitle">官方电话</p><p class="baseInfoText">(.*?)</p></div>''':
                fields["gfdh"] = re.findall(r'''<div class="baseInfoItem"><p class="baseInfoTitle">官方电话</p><p class="baseInfoText">(.*?)</p></div>''', response.text, re.S)[0].strip()
            else:
                if 'gfdh' != 'xiangqing' and 'gfdh' != 'detail' and 'gfdh' != 'pinglun' and 'gfdh' != 'zuofa':
                    fields["gfdh"] = self.remove_html(response.css('''<div class="baseInfoItem"><p class="baseInfoTitle">官方电话</p><p class="baseInfoText">(.*?)</p></div>''').extract_first())
                else:
                    fields["gfdh"] = emoji.demojize(response.css('''<div class="baseInfoItem"><p class="baseInfoTitle">官方电话</p><p class="baseInfoText">(.*?)</p></div>''').extract_first())
        except:
            pass


        try:
            if '(.*?)' in '''div[class="detailModule normalModule"]''':
                fields["detail"] = re.findall(r'''div[class="detailModule normalModule"]''', response.text, re.S)[0].strip()
            else:
                if 'detail' != 'xiangqing' and 'detail' != 'detail' and 'detail' != 'pinglun' and 'detail' != 'zuofa':
                    fields["detail"] = self.remove_html(response.css('''div[class="detailModule normalModule"]''').extract_first())
                else:
                    fields["detail"] = emoji.demojize(response.css('''div[class="detailModule normalModule"]''').extract_first())
        except:
            pass




        return fields

    # 去除多余html标签
    def remove_html(self, html):
        if html == None:
            return ''
        pattern = re.compile(r'<[^>]+>', re.S)
        return pattern.sub('', html).strip()

    # 数据库连接
    def db_connect(self):
        type = self.settings.get('TYPE', 'mysql')
        host = self.settings.get('HOST', 'localhost')
        port = int(self.settings.get('PORT', 3306))
        user = self.settings.get('USER', 'root')
        password = self.settings.get('PASSWORD', '123456')

        try:
            database = self.databaseName
        except:
            database = self.settings.get('DATABASE', '')

        if type == 'mysql':
            connect = pymysql.connect(host=host, port=port, db=database, user=user, passwd=password, charset='utf8')
        else:
            connect = pymssql.connect(host=host, user=user, password=password, database=database)

        return connect

    # 断表是否存在
    def table_exists(self, cursor, table_name):
        cursor.execute("show tables;")
        tables = [cursor.fetchall()]
        table_list = re.findall('(\'.*?\')',str(tables))
        table_list = [re.sub("'",'',each) for each in table_list]

        if table_name in table_list:
            return 1
        else:
            return 0

    # 数据缓存源
    def temp_data(self):

        connect = self.db_connect()
        cursor = connect.cursor()
        sql = '''
            insert into `lvyoujingdian`(
                id
                ,laiyuan
                ,fengmian
                ,biaoti
                ,redu
                ,dizhi
                ,pingfen
                ,pinglun
                ,dianping
                ,gfdh
                ,detail
            )
            select
                id
                ,laiyuan
                ,fengmian
                ,biaoti
                ,redu
                ,dizhi
                ,pingfen
                ,pinglun
                ,dianping
                ,gfdh
                ,detail
            from `5295r_lvyoujingdian`
            where(not exists (select
                id
                ,laiyuan
                ,fengmian
                ,biaoti
                ,redu
                ,dizhi
                ,pingfen
                ,pinglun
                ,dianping
                ,gfdh
                ,detail
            from `lvyoujingdian` where
                `lvyoujingdian`.id=`5295r_lvyoujingdian`.id
            ))
            limit {0}
        '''.format(random.randint(10,15))

        cursor.execute(sql)
        connect.commit()

        connect.close()

数据库参考


--
-- Current Database: `python4655qut3`
--

/*!40000 DROP DATABASE IF EXISTS `python4655qut3`*/;

CREATE DATABASE /*!32312 IF NOT EXISTS*/ `python4655qut3` /*!40100 DEFAULT CHARACTER SET utf8mb4 */;

USE `python4655qut3`;

--
-- Table structure for table `792099hc_wangluoyuqing`
--

DROP TABLE IF EXISTS `792099hc_wangluoyuqing`;
/*!40101 SET @saved_cs_client     = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `792099hc_wangluoyuqing` (
  `id` bigint(20) NOT NULL DEFAULT '0' COMMENT '主键',
  `addtime` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `author` varchar(200) CHARACTER SET utf8 DEFAULT NULL COMMENT '博主',
  `text` longtext CHARACTER SET utf8 COMMENT '博文',
  `bozhuinfo` longtext CHARACTER SET utf8 COMMENT '博主信息',
  `comments` int(11) DEFAULT NULL COMMENT '评论数',
  `attitudes` int(11) DEFAULT NULL COMMENT '点赞数',
  `reposts` int(11) DEFAULT NULL COMMENT '分享数',
  `city` varchar(200) CHARACTER SET utf8 DEFAULT NULL COMMENT '发布城市',
  `detailurl` longtext CHARACTER SET utf8 COMMENT '详情地址'
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
/*!40101 SET character_set_client = @saved_cs_client */;

系统效果图

请添加图片描述

文章目录

目录
第一章绪论 1
1.1研究背景与意义 1
1.2系统研究现状 1
1.3 研究的主要内容 2
第二章开发工具和开发技术 3
2.1 Python语言 3
2.2 Django框架 3
2.3 Hadoop介绍 3
2.4 Scrapy介绍 3
2.5 MYSQL数据库 4
2.6 B/S架构 4
第三章需求分析 5
3.1 需求描述 5
3.2系统可行性分析 5
3.2.1技术可行性分析 5
3.2.2 经济可行性分析 5
3.2.3 环境运行可行性分析 6
3.2.4 法律可行性分析 6
3.3 系统功能需求分析 6
3.4 非功能性需求分析 7
3.5 系统流程分析 7
3.5.1 登录流程 7
3.5.2 添加流程 8
3.5.3 删除信息流程 8
3.6 本章小结 9
第四章系统设计 10
4.1 系统总体设计 10
4.2 数据库设计 10
4.2.1 数据库逻辑设计 10
4.2.2 数据库表设计 11
4.3 本章小结 12
第五章详细设计与实现 13
5.1系统登录注册实现 13
5.2管理员功能实现 14
5.3用户功能实现 17
5.4 本章小结 17
第六章系统测试 18
6.1 测试目的 18
6.2 测试用例 18
6.3 本章小结 19
结论 20
参考文献 21
致谢 22