毕设开源 大数据电影数据分析与可视化系统


0 简介

今天学长向大家介绍一个机器视觉的毕设项目

🚩基于大数据的电影数据分析与可视化系统

项目运行效果(视频):

毕业设计 大数据电影评论情感分析

项目获取:

https://gitee.com/assistant-a/project-sharing

1 课题背景

研究中国用户电影数据,有助于窥探中国电影市场发展背后的规律,理解其来龙去脉,获知未来走向。如今互联网上中国用户的电影数据集缺失,缺少如MovieLens、Kaggle等独立机构完成长期收集电影数据工作,研究人员只能自行收集或下载来自国外的公共电影数据集,不具有本地属性。
本项目爬取豆瓣网相关电影信息,建立数据库。并根据此数据库进行了可视化分析,从中提取出大量数据背后信息,多维度分析了电影在公映时间、观众分布、类别占比、各国市场情况的关系,从评论词云、文本情感角度挖掘单部电影呈现的规律。

2 效果实现

评论情感得分随时间变化情况如下

在这里插入图片描述

在这里插入图片描述

热门评论列表情况如下
在这里插入图片描述

3 爬虫及实现

简介
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。爬虫对某一站点访问,如果可以访问就下载其中的网页内容,并且通过爬虫解析模块解析得到的网页链接,把这些链接作为之后的抓取目标,并且在整个过程中完全不依赖用户,自动运行。若不能访问则根据爬虫预先设定的策略进行下一个 URL的访问。在整个过程中爬虫会自动进行异步处理数据请求,返回网页的抓取数据。在整个的爬虫运行之前,用户都可以自定义的添加代理,伪 装 请求头以便更好地获取网页数据。
爬虫流程图如下:
在这里插入图片描述
部分代码实现

import re
import requests
import json
import time
from openpyxl import load_workbook, Workbook
from requests import RequestException


def get_detail_page(html):
    try:
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"
        }
        cookies = {}
        response = requests.get(url=html, headers=headers, cookies=cookies)
        response.encoding = 'utf-8'
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('获取详情页错误')
        time.sleep(3)
        return get_detail_page(html)

def parse_index_page(html):
    html = get_detail_page(html)
    html = html[12:-1]
    data = json.loads(html)
    id_list = []
    if data:
        for item in data:
            id_list.append(item['url'])
    return id_list

def parse_detail_page(data):
    html = get_detail_page(data)
    info = []
    # 获取电影名称
    name_pattern = re.compile('<span property="v:itemreviewed">(.*?)</span>')
    name = re.findall(name_pattern, html)
    info.append(name[0])
    # 获取评分
    score_pattern = re.compile('rating_num" property="v:average">(.*?)</strong>')
    score = re.findall(score_pattern, html)
    info.append(score[0])
    # 获取导演
    director_pattern = re.compile('rel="v:directedBy">(.*?)</a>')
    director = re.findall(director_pattern, html)
    print(director)
    info.append(str(director[0]))
    # 获取演员
    actor_pattern = re.compile('rel="v:starring">(.*?)</a>')
    actor = re.findall(actor_pattern, html)
    info.append(str(actor[0]))
    # 获取年份
    year_pattern = re.compile('<span class="year">\((.*?)\)</span>')
    year = re.findall(year_pattern, html)
    info.append(year[0])
    # 获取类型
    type_pattern = re.compile('property="v:genre">(.*?)</span>')
    type = re.findall(type_pattern, html)
    info.append(type[0].split(' /')[0])
    # 获取时长
    try:
        time_pattern = re.compile('property="v:runtime" content="(.*?)"')
        time = re.findall(time_pattern, html)
        info.append(time[0])
    except:
        info.append('1')
    # 获取语言
    language_pattern = re.compile('pl">语言:</span>(.*?)<br/>')
    language = re.findall(language_pattern, html)
    info.append(language[0].split(' /')[0])
    # 获取评价人数
    comment_pattern = re.compile('property="v:votes">(.*?)</span>')
    comment = re.findall(comment_pattern, html)
    info.append(comment[0])
    # 获取地区
    area_pattern = re.compile(' class="pl">制片国家/地区:</span>(.*?)<br/>')
    area = re.findall(area_pattern, html)
    info.append(area[0].split(' /')[0])
    return info


html = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E5%86%B7%E9%97%A8%E4%BD%B3%E7%89%87&sort=rank&page_limit=20&page_start='


wc = Workbook()
sheet = wc.active
sheet.title = "New"
ws = wc['New']
sheet['A1'] = 'name'
sheet['B1'] = 'score'
sheet['C1'] = 'director'
sheet['D1'] = 'actor'
sheet['E1'] = 'year'
sheet['F1'] = 'type'
sheet['G1'] = 'time'
sheet['H1'] = 'language'
sheet['I1'] = 'comment'
sheet['J1'] = 'area'
ws = wc[wc.sheetnames[0]]
wc.save('豆瓣电影.xlsx')

ti = 1
for i in range(20, 50):
    print(i)
    html1 = html+str(i*20)
    u = parse_index_page(html1)
    print(u)
    for t in u:
        time.sleep(0.5)
        b = parse_detail_page(t)
        print(b)
        ws.append(b)
        wc.save('豆瓣电影.xlsx')
        ti += 1

4 Flask框架

简介
Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比,Flask的灵活性、轻便性和安全性更高,而且容易上手,它可以与MVC模式很好地结合进行开发。Flask也有强大的定制性,开发者可以依据实际需要增加相应的功能,在实现丰富的功能和扩展的同时能够保证核心功能的简单。Flask丰富的插件库能够让用户实现网站定制的个性化,从而开发出功能强大的网站。

Flask项目结构图
在这里插入图片描述
部分相关代码

from flask import Flask, render_template, jsonify
import requests
from bs4 import BeautifulSoup
from snownlp import SnowNLP
import jieba
import numpy as np

app = Flask(__name__)
app.config.from_object('config')

# 中文停用词
STOPWORDS = set(map(lambda x: x.strip(), open(r'./stopwords.txt', encoding='utf8').readlines()))

headers = {
    'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    'accept-language': "en-US,en;q=0.9,zh-CN;q=0.8,zh-TW;q=0.7,zh;q=0.6",
    'cookie': 'll="108296"; bid=ieDyF9S_Pvo; __utma=30149280.1219785301.1576592769.1576592769.1576592769.1; __utmc=30149280; __utmz=30149280.1576592769.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _vwo_uuid_v2=DF618B52A6E9245858190AA370A98D7E4|0b4d39fcf413bf2c3e364ddad81e6a76; ct=y; dbcl2="40219042:K/CjqllYI3Y"; ck=FsDX; push_noty_num=0; push_doumail_num=0; douban-fav-remind=1; ap_v=0,6.0',
    'host': "search.douban.com",
    'referer': "https://movie.douban.com/",
    'sec-fetch-mode': "navigate",
    'sec-fetch-site': "same-site",
    'sec-fetch-user': "?1",
    'upgrade-insecure-requests': "1",
    'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36 Edg/79.0.309.56"
}

login_name = None


# --------------------- html render ---------------------
@app.route('/')
def index():
    return render_template('index.html')


@app.route('/search')
def search():
    return render_template('search.html')


@app.route('/search/<movie_name>')
def search2(movie_name):
    return render_template('search.html')


@app.route('/hot_movie')
def hot_movie():
    return render_template('hot_movie.html')


@app.route('/movie_category')
def movie_category():
    return render_template('movie_category.html')


# ------------------ ajax restful api -------------------
@app.route('/check_login')
def check_login():
    """判断用户是否登录"""
    return jsonify({'username': login_name, 'login': login_name is not None})


@app.route('/register/<name>/<pasw>')
def register(name, pasw):
    conn = sqlite3.connect('user_info.db')
    cursor = conn.cursor()

    check_sql = "SELECT * FROM sqlite_master where type='table' and name='user'"
    cursor.execute(check_sql)
    results = cursor.fetchall()
    # 数据库表不存在
    if len(results) == 0:
        # 创建数据库表
        sql = """
                CREATE TABLE user(
                    name CHAR(256),
                    pasw CHAR(256)
                );
                """
        cursor.execute(sql)
        conn.commit()
        print('创建数据库表成功!')

    sql = "INSERT INTO user (name, pasw) VALUES (?,?);"
    cursor.executemany(sql, [(name, pasw)])
    conn.commit()
    return jsonify({'info': '用户注册成功!', 'status': 'ok'})


@app.route('/login/<name>/<pasw>')
def login(name, pasw):
    global login_name
    conn = sqlite3.connect('user_info.db')
    cursor = conn.cursor()

    check_sql = "SELECT * FROM sqlite_master where type='table' and name='user'"
    cursor.execute(check_sql)
    results = cursor.fetchall()
    # 数据库表不存在
    if len(results) == 0:
        # 创建数据库表
        sql = """
                CREATE TABLE user(
                    name CHAR(256),
                    pasw CHAR(256)
                );
                """
        cursor.execute(sql)
        conn.commit()
        print('创建数据库表成功!')

    sql = "select * from user where name='{}' and pasw='{}'".format(name, pasw)
    cursor.execute(sql)
    results = cursor.fetchall()

    login_name = name
    if len(results) > 0:
        return jsonify({'info': name + '用户登录成功!', 'status': 'ok'})
    else:
        return jsonify({'info': '当前用户不存在!', 'status': 'error'})

5 Ajax技术

Ajax 是一种独立于 Web 服务器软件的浏览器技术。

Ajax使用 JavaScript 向服务器提出请求并处理响应而不阻塞的用户核心对象XMLHttpRequest。通过这个对象,您的 JavaScript 可在不重载页面的情况与 Web 服务器交换数据,即在不需要刷新页面的情况下,就可以产生局部刷新的效果。

前端将需要的参数转化为JSON字符串,再通过get/post方式向服务器发送一个请并将参数直接传递给后台,后台对前端请求做出反应,接收数据,将数据作为条件查询,但会j’son字符串格式的查询结果集给前端,前端接收到后台返回的数据进行条件判断并作出相应的页面展示。

$.ajax({
			    url: 'http://127.0.0.1:5000/updatePass',
				type: "POST",
				data:JSON.stringify(data.field),
				contentType: "application/json; charset=utf-8",
				dataType: "json",
				success: function(res) {
					if (res.code == 200) {
                        layer.msg(res.msg, {icon: 1});
                    } else {
                        layer.msg(res.msg, {icon: 2});
				    }
				}
			})

6 Echarts

ECharts(Enterprise Charts)是百度开源的数据可视化工具,底层依赖轻量级Canvas库ZRender。兼容了几乎全部常用浏览器的特点,使它可广泛用于PC客户端和手机客户端。ECharts能辅助开发者整合用户数据,创新性的完成个性化设置可视化图表。支持折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)等,通过导入 js 库在 Java Web 项目上运行。

7 最后

项目分享:

https://gitee.com/assistant-a/project-sharing

  • 10
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 基于Python的数据分析和可系统是一种利用Python编程语言进行数据分析和可系统。它可以帮助用户更好地理解和分析数据,从而做出更好的决策。该系统通常包括数据收集、数据清洗、数据分析和数据可等功能,可以应用于各种领域,如商业、科学、医疗等。Python作为一种流行的编程语言,具有易学易用、灵活性强、开源免费等优点,因此在数据分析和可领域得到了广泛应用。 ### 回答2: Python作为一种开源的编程语言,同时也是数据分析和可的重要工具之一。基于Python的数据分析和可系统是一种集数据采集、清洗、分析和可于一体的工具,使得数据分析人员能够更快捷、高效地处理海量数据。 Python的数据分析和可系统通常包含以下几个方面: 1. 数据采集与清洗:Python可以通过各种第三方库,如BeautifulSoup、Selenium、Scrapy等,实现从网页、数据库、API等渠道获取数据,并通过Pandas等数据处理工具实现数据清洗和预处理。 2. 数据分析与处理:Python中有许多强大的数据分析、统计学和机器学习库,例如NumPy、SciPy、StatsModels、scikit-learn等,这些库可以满足数据分析的需求。 3. 数据可:Python中有多个可工具包,例如Matplotlib、Seaborn、Bokeh、Plotly等,这些工具可以帮助数据分析人员通过图表、图像等形式呈现数据信息,更加直观地展现分析结果。 基于Python的数据分析和可系统的优势在于其开源、简单易学、丰富的第三方库和强大的可工具。同时,Python还具有跨平台特性,可以在不同的操作系统上运行。 总之,基于Python的数据分析和可系统是一种强大、高效的数据处理工具,能够帮助数据分析人员实现数据的采集、处理和可,帮助企业和机构更好地理解和利用数据,提高数据决策的质量和效率。 ### 回答3: 随着大数据时代的到来和数据量的爆炸式增长,数据分析和可已成为企业发展的重要一环。Python因其易学易用、开源且拥有丰富的数据科学库而成为数据科学家和业界工程师的首选。基于Python的数据分析和可系统可以提供一种高效而迅捷的解决方案,能够对海量数据进行整合、分析和可展示,同时也可以提高分析师和决策者在处理数据的效率。 基于Python的数据分析和可系统通常涵盖以下几个层次: 1. 数据收集和整合 企业通常会面临来自多个来源的数据,例如交易记录、用户反馈、生产日志等。基于Python的数据分析和可系统可以帮助企业将这些来自不同来源的数据进行整合,使其能够在统一的平台下进行分析。 2. 数据预处理和清洗 在大数据时代,无论是结构数据还是非结构数据都存在噪音、丢失值和异常值。基于Python的数据分析和可系统可以通过数据预处理和清洗的方法,处理这些问题,使得分析和可的结果更加准确和完整。 3. 数据分析和建模 基于Python的数据科学库,例如pandas、numpy等可以提供基础的数据处理、计算和统计分析的功能。而在这些功能的基础上,scikit-learn和TensorFlow等高级数据科学库也可以帮助企业实现复杂的机器学习和深度学习模型,从而更好地分析数据并从中获得有价值的信息。 4. 可呈现 基于Python的可库,例如matplotlib、seaborn和plotly等,可以提供各种绘图界面,帮助用户将经过分析后的数据以更好的方式进行可呈现,帮助企业管理层更快速地了解业务状况和决策支持。 综上所述,基于Python的数据分析和可系统可以帮助企业在海量数据中找到有价值的信息,了解业务现状,发现潜在问题,并提出科学合理的解决方案。它不仅可以提高企业数据分析的效率、准确性和可靠性,也可以为企业在竞争的市场中寻找到新的商业机会。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值