【项目实战】基于python+爬虫的高考数据分析与可视化系统高考志愿推荐系统

最新推荐文章于 2024-11-16 13:35:43 发布

Q2643365023

最新推荐文章于 2024-11-16 13:35:43 发布

阅读量1.8k

点赞数 27

分类专栏： Python 文章标签： python 爬虫计算机毕设项目大数据 hadoop 毕业设计选题数据分析

本文链接：https://blog.csdn.net/IT_YQG_/article/details/141143023

版权

Python 专栏收录该内容

39 篇文章

订阅专栏

注意：该项目只展示部分功能，如需了解，文末咨询即可。

本文目录

1.开发环境
2 系统设计
2.1 设计背景
2.2 设计内容

3 系统页面展示
3.1 前台页面
3.2 后台页面
3.3 功能展示视频

4 更多推荐
5 爬虫代码

在这里插入图片描述

1.开发环境

开发语言：Python
技术框架：Django、爬虫
数据库：MySQL
开发工具：PyCharm

2 系统设计

2.1 设计背景

在当今信息化时代,高考作为中国最重要的教育选拔制度之一,每年都产生海量的数据。这些数据蕴含着丰富的教育信息和社会价值,但由于数据分散、格式不统一等问题,难以有效利用。随着大数据技术的发展,利用Python等工具对高考数据进行系统性分析和可视化展示成为可能。
本系统旨在通过爬虫技术从各省市教育考试院网站、高校招生网站等渠道采集高考相关数据,包括分数线、录取情况、专业设置等信息。利用Python强大的数据处理能力,对采集的数据进行清洗、整合和分析,探索高考成绩、录取最低分数趋势、学校类型、地域等多个维度的信息。通过数据可视化技术,将复杂的数据转化为直观的图表,帮助用户更好地理解高考数据背后的规律和趋势。

2.2 设计内容

高考数据分析与可视化系统设计内容

1.数据采集模块：

使用Python爬虫技术从网站采集高考相关数据，获取院校信息、分数线、录取情况、专业设置等数据

2.数据处理模块：

数据清洗：去除重复和无效数据，统一数据格式

数据整合：将不同来源的数据进行归类和整合

数据分析：使用pandas和numpy等库进行统计分析

3.数据存储模块：

使用关系型数据库（如MySQL）存储结构化数据

采用NoSQL数据库存储非结构化数据

4.可视化模块：

使用Echarts或Plotly等库实现交互式数据可视化

开发以下图表：

学校分布饼图：展示不同地区高校的数量分布

学校类型柱状图：展示不同类型高校的数量

分数线趋势图：展示近年来高校分数线变化趋势

专业分布图：展示不同专业的招生情况

实现数据筛选和动态更新功能

5.用户界面模块：

设计直观、友好的Web界面

实现数据展示面板，包括总览、详细数据表格等

开发搜索和筛选功能，方便用户查找特定信息

6.推荐模块：

基于用户行为等信息，提供院校和专业推荐，并优化推荐结果

3 系统页面展示

3.1 前台页面

在这里插入图片描述

3.2 后台页面

在这里插入图片描述

3.3 功能展示视频

基于Scrapy爬虫的高考数据分析系统高考志愿推荐系统源码

5 爬虫代码

# 数据爬取文件

import scrapy
import pymysql
import pymssql
from ..items import GaoxiaoxinxiItem
import time
from datetime import datetime,timedelta
import re
import random
import platform
import json
import os
import urllib
from urllib.parse import urlparse
import requests
import emoji

# 高校信息
class GaoxiaoxinxiSpider(scrapy.Spider):
    name = 'gaoxiaoxinxiSpider'
    spiderUrl = 'https://api.eol.cn/web/api/?admissions=&big_min=750&central=&department=&dual_class=&f211=&f985=&is_doublehigh=&is_dual_class=&keyword=&local_batch_id=&local_province_id=44&local_type_id=2073&nature=&page={}&province_id=&ranktype=&school_type=&size=20&small_min=0&type=&uri=apidata/api/gk/score/province&year=2022&zslx=0&signsafe=4df4bc69d4d10eb446201893f7ff1ae0'
    start_urls = spiderUrl.split(";")
    protocol = ''
    hostname = ''

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)

    def start_requests(self):

        plat = platform.system().lower()
        if plat == 'linux' or plat == 'windows':
            connect = self.db_connect()
            cursor = connect.cursor()
            if self.table_exists(cursor, '69942_gaoxiaoxinxi') == 1:
                cursor.close()
                connect.close()
                self.temp_data()
                return

        pageNum = 1 + 1
        for url in self.start_urls:
            if '{}' in url:
                for page in range(1, pageNum):
                    next_link = url.format(page)
                    yield scrapy.Request(
                        url=next_link,
                        callback=self.parse
                    )
            else:
                yield scrapy.Request(
                    url=url,
                    callback=self.parse
                )

    # 列表解析
    def parse(self, response):
        
        _url = urlparse(self.spiderUrl)
        self.protocol = _url.scheme
        self.hostname = _url.netloc
        plat = platform.system().lower()
        if plat == 'windows_bak':
            pass
        elif plat == 'linux' or plat == 'windows':
            connect = self.db_connect()
            cursor = connect.cursor()
            if self.table_exists(cursor, '69942_gaoxiaoxinxi') == 1:
                cursor.close()
                connect.close()
                self.temp_data()
                return

        data = json.loads(response.body)
        list = data["data"]["item"]
        
        for item in list:

            fields = GaoxiaoxinxiItem()




            fields["sheng"] = item["province_name"]
            fields["shi"] = item["city_name"]
            fields["qu"] = item["county_name"]
            fields["xuexiaoming"] = item["name"]
            fields["xingzhi"] = item["nature_name"]
            fields["leixing"] = item["zslx_name"]
            fields["zuidifen"] = item["min"]
            fields["zdwc"] = item["min_section"]
            fields["biaoqian"] = item["dual_class_name"]
            fields["pici"] = item["local_batch_name"]
            fields["xueke"] = item["local_type_name"]
            fields["zhuanye"] = item["sg_info"]

            yield fields

    # 详情解析
    def detail_parse(self, response):
        fields = response.meta['fields']



        return fields

    # 去除多余html标签
    def remove_html(self, html):
        if html == None:
            return ''
        pattern = re.compile(r'<[^>]+>', re.S)
        return pattern.sub('', html).strip()

    # 数据库连接
    def db_connect(self):
        type = self.settings.get('TYPE', 'mysql')
        host = self.settings.get('HOST', 'localhost')
        port = int(self.settings.get('PORT', 3306))
        user = self.settings.get('USER', 'root')
        password = self.settings.get('PASSWORD', '123456')

        try:
            database = self.databaseName
        except:
            database = self.settings.get('DATABASE', '')

        if type == 'mysql':
            connect = pymysql.connect(host=host, port=port, db=database, user=user, passwd=password, charset='utf8')
        else:
            connect = pymssql.connect(host=host, user=user, password=password, database=database)

        return connect

    # 断表是否存在
    def table_exists(self, cursor, table_name):
        cursor.execute("show tables;")
        tables = [cursor.fetchall()]
        table_list = re.findall('(\'.*?\')',str(tables))
        table_list = [re.sub("'",'',each) for each in table_list]

        if table_name in table_list:
            return 1
        else:
            return 0

    # 数据缓存源
    def temp_data(self):

        connect = self.db_connect()
        cursor = connect.cursor()
        sql = '''
            insert into `gaoxiaoxinxi`(
                id
                ,sheng
                ,shi
                ,qu
                ,xuexiaoming
                ,xingzhi
                ,leixing
                ,zuidifen
                ,zdwc
                ,biaoqian
                ,pici
                ,xueke
                ,zhuanye
            )
            select
                id
                ,sheng
                ,shi
                ,qu
                ,xuexiaoming
                ,xingzhi
                ,leixing
                ,zuidifen
                ,zdwc
                ,biaoqian
                ,pici
                ,xueke
                ,zhuanye
            from `69942_gaoxiaoxinxi`
            where(not exists (select
                id
                ,sheng
                ,shi
                ,qu
                ,xuexiaoming
                ,xingzhi
                ,leixing
                ,zuidifen
                ,zdwc
                ,biaoqian
                ,pici
                ,xueke
                ,zhuanye
            from `gaoxiaoxinxi` where
                `gaoxiaoxinxi`.id=`69942_gaoxiaoxinxi`.id
            ))
            limit {0}
        '''.format(random.randint(10,15))

        cursor.execute(sql)
        connect.commit()

        connect.close()