基于Spark在线广告推荐系统数据分析可视化大屏_在线教育大数据可视化分析系统-CSDN博客

本文链接：https://blog.csdn.net/abo2022/article/details/146440625

具体实现->已完成成品截图

在这里插入图片描述

设计的基本流程介绍

在数据采集和存储方面，国内研究者广泛使用Python进行数据收集和处理。例如，有研究通过Python的requests库进行数据爬取，并利用Python的强大库和工具，如Pandas和Numpy，进行数据处理和分析，这些工具在数据分析领域得到了广泛应用，极大地提高了数据处理效率。此外，还有研究采用Python技术构建了考研数据分析系统，利用Flask框架和MySQL数据库进行数据管理，确保了数据的高效处理和存储。
在数据预处理和清洗方面，国内的研究者注重对数据进行深入的处理和清洗，以确保数据的准确性和可靠性。例如，有研究通过聚类分析、关联规则挖掘等方法对考研数据进行更深入的分析，从而提供更准确的报考建议和教学资源分配策略。此外，还有研究尝试使用数据挖掘技术对考研数据进行更深入的分析，如聚类分析、关联规则挖掘等，这些技术在使用前需要对数据进行严格的预处理和清洗。

（1）数据采集与清洗
数据采集与清洗是考研服务系统的首要环节。通过Spider爬虫技术使用requests、BeautifulSoup等库，从各大网站平台等渠道自动抓取海量的相关数据随后，利用Pandas等数据处理库对采集到的数据进行清洗，去除重复、无效或错误的数据，确保数据的质量和准确性，为后续分析提供可靠的基础。
（2）数据存储与管理
完成数据清洗后，进入数据存储与管理阶段。采用MySQL关系型数据库，利用Python的数据库连接库如PyMySQL、SQLAlchemy等，将清洗后的数据有序存储。通过设计合理的数据库表结构，实现数据的高效查询、更新和管理。同时，确保数据的安全性和稳定性，为系统的长期运行提供保障。
（3）数据处理与分析
数据处理与分析是系统的核心环节。利用Python的强大数据处理能力，通过Numpy、Scipy等科学计算库对存储的数据进行统计分析、数学建模和机器学习等操作。通过聚类分析、回归分析等方法挖掘数据背后的规律和趋势，为考生提供个性化的报考建议、学习规划和成绩预测等服务。这一阶段将数据转化为有价值的信息，为决策提供支持。
（4）可视化与展示
最后，进入可视化与展示阶段。利用Python的可视化库如Matplotlib、Seaborn、Plotly等，将复杂的数据分析结果以直观、易懂的图表形式展示出来。通过设计交互式仪表盘，使用户能够轻松筛选、对比和分析数据。同时，结合Web开发技术Django等，将可视化结果嵌入到Web页面中，供考生、教育机构和研究者随时随地访问和使用。可视化与展示环节使数据变得生动易懂，提升了用户体验和系统的实用性。

开发流程

1）环境搭建
搭建符合课题开发的环境。搭建pycharm+mysql即可操作简单方面,远程安装好;
2）数据采集。可选项，根据课题需要完成数据采集的设计与开发。
3）数据预处理。
对于有缺失值的记录，按照自己定义的规则或补充或舍弃处理，对于类型数据按照规则映射为数值；对于不平衡数据需要有相应的处理措施。
4）数据存储。
必须使用数据库保存数据。推荐使用NoSQL数据库，如 MongoDB、 Redis 等数据库，也可以使用关系数据库保存数据，如 MySQL；开发过程需要包括数据库需求分析、数据库设计、数据库建立、数据输入等部分。
5）数据分析与预测
使用合理的数据计算框架实现数据分析，例如:Tensorflow/Pytorch、Hadoop、hive、Spark等；根据课题选择、比较各算法性能；构造出基于最佳算法的框架，编程实现并测试选取不同参数时对算法性能的影响；
6）数据可视化分析
对模型建立、数据分析结果用不同可视化方式进行可视化分析。此部分可以增加对用户/会员管理功能。推荐采用B/S结构实现。
2.具体要求：
所开的系统能正常运行在所选的平台上，并实现相关模块的功能；
提供系统模块框架分析图、模块功能说明图、系统平台设计图、各分模块实现框图，在设计文档中体现；

课题项目源码功能介绍

独立开发设计系统的模块程序，遵循软件工程开发周期进行，包括需求分析、总体方案制定、详细设计和功能规划、编程实现、调试等；
基于Python大数据技术进行网络爬虫的设计,框架使用Scrapy.
系统设计支持以下技术栈
前端开发框架:vue.js
数据库 mysql 版本不限
后端语言框架支持：
1 java(SSM/springboot)-idea/eclipse
2.python(flask/django)–pycharm/vscode
3.Nodejs+Vue.js -vscode
4.php(thinkphp/laravel)-hbuilderx/vscode
数据库工具：Navicat/SQLyog等都可以

Scrapy爬虫框架

网络爬虫是依靠预先设定好的规则而进行自动的抓取网络信息的过程。网络爬虫通过解析网页，自动获取网页的数据。相较于人工去获取网页数据，无疑是要方便许多。本文使用 Python 的 Requests 库和 Beautifulsoup 库去解析链家网页，获取数据。同样是网络爬虫的一种。当然，网络爬虫也是有缺点的，它在对网页进行爬取时，可能会触发网页的反爬机制，从而导致失败。所以在编写爬虫程序的时候就要想办法绕过反爬机制，增加了工作量。而且网络爬虫必须要遵守相关法律法规，不能够恶意的去爬取一些网站的信息。
Scrapy是一个Python编写的强大，灵活的网络爬虫框架和数据提取工具。它使用异步I/O网络库Twisted进行高效的爬取，并将提取到的数据存储到多种格式中。然而，在需要大规模爬取复杂的网站时，单机爬虫速度会受到限制。为了解决这个问题，Scrapy提供了分布式爬虫系统

爬虫核心代码展示

import scrapy
import pymysql
import pymssql
from ..items import xiangmuItem
import time
import re
import random
import platform
import json
import os
from urllib.parse import urlparse
import requests
import emoji
class xiangmuSpider(scrapy.Spider):
    name = 'xiangmuSpider'
    spiderUrl = 'https://url网址'
    start_urls = spiderUrl.split(";")
    protocol = ''
    hostname = ''

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)


    # 列表解析
    def parse(self, response):
        
        _url = urlparse(self.spiderUrl)
        self.protocol = _url.scheme
        self.hostname = _url.netloc
        plat = platform.system().lower()
        if plat == 'windows_bak':
            pass
        elif plat == 'linux' or plat == 'windows':
            connect = self.db_connect()
            cursor = connect.cursor()
            if self.table_exists(cursor, 'xiangmu') == 1:
                cursor.close()
                connect.close()
                self.temp_data()
                return

        list = response.css('ul.subject-list li.subject-item')
        
        for item in list:

            fields = xiangmuItem()



            fields["laiyuan"] = self.remove_html(item.css('div.pic a.nbg::attr(href)').extract_first())
            if fields["laiyuan"].startswith('//'):
                fields["laiyuan"] = self.protocol + ':' + fields["laiyuan"]
            elif fields["laiyuan"].startswith('/'):
                fields["laiyuan"] = self.protocol + '://' + self.hostname + fields["laiyuan"]
            fields["fengmian"] = self.remove_html(item.css('div.pic a.nbg img::attr(src)').extract_first())
            fields["xiaoshuoming"] = self.remove_html(item.css('div.info h2 a::attr(title)').extract_first())

            detailUrlRule = item.css('div.pic a.nbg::attr(href)').extract_first()
            if self.protocol in detailUrlRule:
                pass
            elif detailUrlRule.startswith('//'):
                detailUrlRule = self.protocol + ':' + detailUrlRule
            else:
                detailUrlRule = self.protocol + '://' + self.hostname + detailUrlRule
                fields["laiyuan"] = detailUrlRule

            yield scrapy.Request(url=detailUrlRule, meta={'fields': fields},  callback=self.detail_parse)


    # 详情解析
    def detail_parse(self, response):
        fields = response.meta['fields']

        try:
            if '(.*?)' in '''div#info span a::text''':
                fields["zuozhe"] = re.findall(r'''div#info span a::text''', response.text, re.S)[0].strip()
            else:
                if 'zuozhe' != 'xiangqing' and 'zuozhe' != 'detail' and 'zuozhe' != 'pinglun' and 'zuozhe' != 'zuofa':
                    fields["zuozhe"] = self.remove_html(response.css('''div#info span a::text''').extract_first())
                else:
                    fields["zuozhe"] = emoji.demojize(response.css('''div#info span a::text''').extract_first())
        except:
            pass
 # 去除多余html标签
    def remove_html(self, html):
        if html == None:
            return ''
        pattern = re.compile(r'<[^>]+>', re.S)
        return pattern.sub('', html).strip()

    # 数据库连接
    def db_connect(self):
        type = self.settings.get('TYPE', 'mysql')
        host = self.settings.get('HOST', 'localhost')
        port = int(self.settings.get('PORT', 3306))
        user = self.settings.get('USER', 'root')
        password = self.settings.get('PASSWORD', '123456')

        try:
            database = self.databaseName
        except:
            database = self.settings.get('DATABASE', '')

        if type == 'mysql':
            connect = pymysql.connect(host=host, port=port, db=database, user=user, passwd=password, charset='utf8')
        else:
            connect = pymssql.connect(host=host, user=user, password=password, database=database)

        return connect

    # 断表是否存在
    def table_exists(self, cursor, table_name):
        cursor.execute("show tables;")
        tables = [cursor.fetchall()]
        table_list = re.findall('(\'.*?\')',str(tables))
        table_list = [re.sub("'",'',each) for each in table_list]

        if table_name in table_list:
            return 1
        else:
            return 0