内容概要:
内容概要:本文详细介绍了在大数据时代下,如何设计并实现一个短视频观看行为数据采集与分析系统。该系统使用Python和Django框架进行开发,结合MySQL数据库管理数据,并通过数据可视化技术展示分析结果。文章涵盖了系统的需求分析、设计思想、功能模块设计、数据库设计、详细设计以及系统测试等内容。系统主要包括用户管理和短视频信息管理等功能,能够有效地收集和分析用户的观看行为数据,为用户提供个性化服务。
适合人群:从事大数据分析、系统设计与开发的工程师和技术研究人员,特别是对Python、Django和MySQL有了解的读者。
使用场景及目标:适用于需要对用户观看行为进行数据分析的企业和机构,可以帮助这些企业和机构更好地了解用户偏好,优化内容推荐机制,提升用户体验。此外,本文也可作为相关领域的学术研究参考。
其他说明:系统设计注重有效性和可扩展性,确保能够在不同规模的数据环境中稳定运行。同时,系统界面设计友好,方便用户操作。
论文概览
结构合理,内容清晰,字数近 1 w
以下是该项目的论文部分内容及相关截图
目录
大数据时代下短视频观看行为数据采集与分析是使用大数据技术和Django框架进行系统设计的,近年来,科技飞速发展,在经济全球化的背景之下,大数据将进一步提高社会综合发展的效率和速度,大数据技术也会涉及到各个领域,而信息管理与信息系统在大数据背景下有着无法忽视的作用。管理信息系统的开发是一个不断优化的过程,随着大数据时代的到来,管理信息系统与大数据集的集成成为必然。
关键字:大数据时代下短视频观看行为数据采集与分析;Python;MySQL
Abstract
In the era of big data, the data collection and analysis of short video viewing behavior are systematically designed using big data technology and Django framework. In recent years, with the rapid development of science and technology, under the background of economic globalization, big data will further improve the efficiency and speed of comprehensive social development, and big data technology will also be involved in various fields. In the background of big data, information management and information system play an important role. The development of management information system is a process of continuous optimization. With the coming of the era of big data, the integration of management information system and big data set becomes inevitable.
Key words: Short video viewing behavior data collection and analysis in the era of big data; Python; MySQL
第1章 前言
1.1研究背景
随着近几年来智慧网络的快速发展,不管是哪个国家或者哪个地区,网络发展的速度都是飞快的,而且对于国外而言,起步是比较早的,但是对于我国当下的网络发展也是在逐步提升,并且根据系统的发展进行不同方面的满足用户的需求,由此可以看出借助网络发展的重要性。
由于各类数据信息的变动快而频繁,“大数据”时代在“互联网+”技术应用时代变得更加充满活力。目前,与传统数据相比,大数据具有数据量大、种类多、成本高的特点。大数据的意义不仅局限于互联网产业的发展,而且对数字信息时代的发展起着重要的作用。[2]在智能设备蓬勃发展的时代,如何平衡功率、覆盖率、传输速度和成本是应用程序开发人员长期关注的主要问题之一。综合大数据和高性能分析后,及时分析故障、问题和缺陷的根本原因,合理分析推广,规避风险。大数据分析更是当前社会的热门话题,如何对杂乱且繁杂的数据进行分析并得出有效结论是大数据分析要解决的重要问题。大数据的分析在实际应用方面越来越广泛,无论哪一个行业,大数据分析都是重点的研究目标,是每个领域内都需要的。大数据的意义广泛且不局限,在各个地方都有着十分重要的意义。
1.2设计目的
通过对大数据时代下短视频观看行为数据采集与分析管理内容的学习研究,进而设计并实现一个大数据时代下短视频观看行为数据采集与分析。系统能实现的主要功能应包括个人中心、看板、用户管理、bilibili信息管理、系统管理的一些查看等操作。还有可以正确的为用户服务,准确显示当前信息。
在大数据时代下短视频观看行为数据采集与分析的前期,即需求分析阶段,我们对大数据时代下短视频观看行为数据采集与分析的需求进行了详细的描述,并且在需求规范中有详细的描述和阐明。根据系统需求的分析,对大数据时代下短视频观看行为数据采集与分析的管理进行了整体的设计。着重对软件模块的设计进行了详细的分析,以达到对系统的需求。重点阐述了系统的划分、接口的确定、各模块间的数据传输、数据结构与模块结构的设计。在下面的概要设计中,将会详细地描述这个阶段中的系统。
1.3设计思想
在开发与设计中,要有正确的开发思路,要对开发环境、语言、架构、操作系统这些方面做一些了解,最后就是完整的思路模式。系统的设计按照以下原则执行:
(1)有效性原则能够设计的有效,对于用户来说是比较满意的,正常的可以用是在需求,还有是有用的特定意义,都是可以说在有效的范围里。都是用一些操作,还有开发的思维,能够给使用者带来的使用。所谓设计就是需求的想法,很完整就不能够是一个好的系统,可以使用的系统有效性是很高的,而且还有效使用,在实现用户的需求时才能够很好而不会有错误的。
(2)可扩展性从“可伸缩”的意义来看,许多人认为,讨论改进性能、实现高可用性,甚至是专门的技术和协议。很明显,这些都与可扩充性无关,你必须知道有关速度、性能、可用性、应用平台、网络等等,但是,这并不是一个可扩充的定义。其核心内容是增加一个功能逻辑,或者减少一个功能,逻辑上并不会影响到其他已经编写好的功能模块,这就是可扩展性含义。
系统的可扩展性设计非常重要,但是又非常难以掌握,很多试图通过高并发语言等方式缓解开发者精力,但是,无论采取什么技术,如果应用系统内部是比较的麻烦,比如对数据库的严重依赖,当系统的存取规模达到一定程度时,就会将资源集中在一个或两个数据库服务器上,这时进行分区扩展伸缩就比较困难[1]。
(3)用户的需求原则在设计系统之前,一般都是先了解一下系统,了解一下系统中的信息在哪里,然后再进行相应的设置。但我们也承认,许多使用者并不能真正了解设计师的想法,并且经过研究发现,系统所服务的对象是广大的用户,并不是掌握这些知识的设计者,所以我们得通过特殊的界面来实现让用户方便使用的系统。
第2章 开发技术介绍
2.1 python介绍
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。Python 属于一个高层次的脚本语言,以解释性,编译性,互动性和面向对象相结合。在设计上相比其他语言,它更具有特色语法结构,很强的可读性。
Python语言之所以如此广泛的被使用是由其自身的优势所决定的,首先它的兼容性非常的好可以实现跨平台的使用,互联网络的出现使人们进行信息传递有了更多的方法,使信息资源得到了最大限度的共享,人与人之间的交流变得更加方便,打破了地域对信息传递的束缚,为人们生活带来了极大的便利。虽然Python语言在当今已经发展非常 成熟,但是它并不是完美无缺的,需要研发人员不懈的努力来使其更加完善。
2.2Django框架介绍
Django是一种开源的大而且全的Web应用框架,是由python语言来编写的。他采用了MVC模式,Django最初是被开发来用于管理劳伦斯出版集团下的一些以新闻为主内容的网站。一款CMS(内容管理系统)软件。并于 2005 年 7 月在 BSD 许可证下发布。这套框架是以比利时的吉普赛爵士吉他手 Django Reinhardt 来命名的。
Django是Python语言中的一个web框架,并遵循MVC设计。Python语言中主流的web框架有Django、Tornado、Flask 等多种,Django相较与其它WEB框架,其优势为:大而全,框架本身集成了ORM、模型绑定、模板引擎、缓存、文件管理、认证权限Session等功能,是一个全能型框架,拥有自己的Admin数据管理后台,第三方工具齐全,性能折中。Django的主要目的是简便、快速的开发数据库驱动的网站。它强调代码复用,多个组件可以很方便的以"插件"形式服务于整个框架,Django有许多功能强大的第三方插件,你甚至可以很方便的开发出自己的工具包。这使得Django具有很强的可扩展性。它还强调快速开发和DRY(Do Not Repeat Yourself)原则。
Django优点:强大的数据库功能、自带强大的后台功能、优雅的网址、具有模板系统、自带强大的后台功能、缓存系统、国际化、App 理念。
现在的Web动态网站都是基于数据库的,一直以来,MySQL数据与PHP技术的组合都备受开发者们的亲赖,MySQL目前属于Oracle甲骨文公司,MySQL称之为关系型数据库[18]。
(1)MySQL是相比与oracle更轻量、更简介便于使用,在服务部署方面相对复杂度低,更利于毕设系统的开发。
(2)MySQL对多数个人用户来说是免费的。
(3)MySQL支持sql语言,学习成本较低[19]。
(4)MySQL可支持互联网数据共享也支持数据安全设置,防止数据泄露。
(5)MySQL运行到各种版本的操作系统中无论是服务器上还是开发用的笔记本上。
什么是大数据,大数据的定义应该是多层次的。[1]狭义的大数据停留在技术处理的层面;而广义的大数据则包含了大数据产业链的各个环节所提供的产品和服务;泛义的大数据扩展到每个细分的行业大数据中,成为“数据+”;伪义大数据则以营销为目的,虽然不可避免地包含了一部分炒作的成分,但也确确实实起到了一定的推广作用,是一股不可低估的市场力量。大规模数据的概念是由一家全球知名的咨询公司的麦肯锡(McKinsey)首先提出的,目前人们普遍认为它是一种数据管理模式,可以根据广泛、多样和有价值的信息快速处理数据。大数据的传递,作为大交响曲的创作,需要三部曲的策划、实施和操作。现在社会发展很快,科技发展,信息流通,人们的交流越来越紧密,生活越来越舒适,大数据是这个时代的结果。对于大数据背景下信息管理与信息系统的研究,首先要知道什么是大数据,以及大数据的一些性质特征。
可视化是一个认知的过程,目的在于对事物的洞悉观察,而不是绘制的可视化结果本身。数据显示是数据分析后发送结果和请求的过程,是一个报警过程。大数据分析结果之间的相关性更为复杂。传统的展示方式已经不能满足当今社会的需要。大数据的出现带来了更直观、更清晰的表现形式。可视化技术的参考是其中的一个重要部分。他的作用也体现在很多方面,揭示很多想法和对应关系,形成论点或者意见,观察事物的演变趋势,探索性的分析数据。
以对于中央电化教育馆教育信息技术研究2018年度立项课题清单的分析为例,进行需求分析以及可视化表达。首先要对清单内数据进行一系列处理,我们可以大概从课题内容分析、按学段进行分析、或者对同一地区课题方向进行分析。那么我将针对课题内容进行分析,目的为得到当前年度热门课题的关键词都有哪些,明确当下教育热点,以便为下一步教育的发展做铺垫。既然要从课题内容进行分析,那么第一步就是对整个清单内的数据进行处理,对课题进行一个分词处理,也就是对关键词进行提炼,有效关键词的获取是分析的最重要的基础,在这一部分,由于是教育方面的课题研究,因此我将引用专业领域词库,并设定一些停用词,在使关键词的划分更加准确的同时,能够减少关键词的数量,让提取出来的关键词在质量上得到保证。其次就是对关键词进行统计,最终以可视化图表的形式呈现出想要的结果。
从宏观的角度来讲,可视化的三大功能之一就是信息记录,将浩瀚烟云的信息记录成文,最有效的方法之一就是信息成像,因此,为了达到最终的分析目的,使杂乱无章的占比数据以一种更加直观、简明清晰的视图效果展现出来,对数据进行系统的分析之后,将最终结果进行可视化处理,便能够显而易见的看出当前的热点话题。
通过对短视频观看行为数据的采集与分析,我们可以深入探究用户的观看习惯、兴趣爱好、消费偏好等行为特征。在实现过程中,我们需要使用专业领域的词库,并结合停用词的设定,对数据进行关键词提取和统计分析。最终,通过可视化图表的展示,我们可以更加直观地呈现出短视频观看的热门话题和用户行为变化趋势,为企业决策提供有价值的参考。