广电大数据用户画像设计与实现

119 篇文章 0 订阅
98 篇文章 0 订阅

摘  要

进入21世纪,随着互联网技术和移动通信技术的快速发展和网络扩大,人们对于信息的获取和传播的方式发生了翻天覆地的变化,市场竞争压力随着互联网的发展增大,用户的选择变得多样化。但是在同时,随着数据化转型的推进和大数据技术的应用,广电行业也渐渐地获取了更多的数据来源和分析能力。

广电需要了解观众的需求和兴趣,通过提供符合观众需求的内容来增加市场份额。用户画像研究可以帮助广电企业更好地了解观众的需求,优化节目策划和内容推荐。广电开始收集和分析用户的行为数据、社交媒体数据等等,对用户的个人特征、使用行为、兴趣偏好等方面详细的进行分析,最终结果是为了实现对大数据用户所有群体的个性化推荐。广电大数据用户画像在广电行业面临市场竞争、广告营销、内容生产和运营等方面的需求,借助大数据和用户画像技术来更好地了解观众、满足观众需求,并提供更精准的服务和解决方案。

本系统通过获取广电用户大数据,对其数据分析来得到二次数据,为用户提供数据展示,从而有效解决上述问题 ,具有一定的应用价值。本系统主要包含了数据采集、数据分析和数据展示三个大板块,数据采集模块为系统提供原始的用户数据,数据分析模块通过定制的策略得到分析得到价值信息,并提供给数据展示模块来前端显示。另外系统还提供了系统管理模块,为系统的注册用户提供个性化使用功能。本系统使用Flume技术来进行数据采集过程,并利用Spark进行数据分析,数据库方面采用的是MySQL,另外系统还提供了系统管理模块,为系统的注册用户提供个性化使用功能,为用户提供有效的信息支持和操作简化。

关键字: 广电用户大数据分析;Spark;Flume;数据可视化

Design and implementation of big data user portrait for Radio and television

Abstract

In the 21st century, with the rapid development of Internet technology and mobile communication technology and the expansion of the network, people's way of obtaining and disseminating information has undergone earth-shaking changes. The pressure of market competition has increased with the development of the Internet, and the choices of users have become diversified. However, at the same time, with the advancement of data transformation and the application of big data technology, the radio and television industry has gradually obtained more data sources and analysis capabilities.

Broadcasters need to understand the audience's needs and interests and increase their market share by providing content that meets the audience's needs. User portrait research can help broadcasters better understand the needs of viewers and optimize program planning and content recommendation. Broadcasting and television began to collect and analyze users' behavioral data, social media data, etc., and carried out detailed analysis on users' personal characteristics, usage behaviors, interests and preferences, etc. The final result was to realize personalized recommendation for all groups of big data users. The radio and television industry faces the needs of market competition, advertising and marketing, content production and operation, and uses big data and user portrait technology to better understand the audience, meet the needs of the audience, and provide more accurate services and solutions.

This system obtains secondary data by obtaining big data of radio and television users, and analyzes its data to provide users with data display, so as to effectively solve the above problems and has certain application value. The system mainly includes three major sections: data acquisition, data analysis and data display. The data acquisition module provides the original user data for the system, and the data analysis module obtains the value information through the customized strategy, and provides the data display module for front-end display. In addition, the system also provides a system management module, which provides personalized functions for the registered users of the system. The system uses Flume technology to carry out data acquisition process, and uses Spark for data analysis, and uses MySQL for database. In addition, the system also provides a system management module, which provides personalized use functions for registered users of the system, and provides effective information support and operation simplification for users.

Key words: Radio and television users big data analysis; Spark; Flume; Data visualization

目  录

1  绪论

1.1  研究背景及意义

大数据用户画像的研究背景可以追溯到信息技术的快速发展和互联网的普及。随着互联网的普及,人们在日常生活中产生了大量的数字数据,包括个人信息、浏览记录、购物偏好、社交媒体行为等。这些数据蕴含着丰富的信息,可以用于揭示用户的兴趣、需求、行为模式等。

传统的市场调研方法往往采用小样本调查或统计分析,难以全面、准确地了解用户的特征和行为。而大数据用户画像的研究借助大数据技术,能够基于大规模的数据样本进行深入挖掘和分析,从而实现对用户的全面描述和精准预测。

大数据用户画像的研究背景主要有以下几个方面:

数字化时代的到来:随着信息技术的发展和互联网的普及,人们在日常生活中产生了大量的数字数据。这些数据包含了用户的多维度信息,如社交网络、搜索记录、在线购物行为等,为用户画像提供了丰富的数据基础。

个性化需求的增加:随着社会的发展,人们对个性化服务和产品的需求越来越高。传统的市场调研方法无法满足这种个性化需求,而大数据用户画像可以通过全面分析用户的特征和行为模式,提供更加个性化的服务和推荐。

数据挖掘和机器学习的发展:数据挖掘和机器学习等技术的发展为大数据用户画像提供了有力的工具支持。通过这些技术,可以从海量的数据中提取出有用的特征,并构建模型进行用户分类、预测和推荐等任务。

营销精准化的需求:企业希望能够更好地了解用户的需求和行为,以便进行精准化的营销活动。大数据用户画像可以提供详细的用户描述和行为分析,帮助企业更好地理解用户,提高营销效果。

总之,大数据用户画像的研究背景源于数字化时代的到来、个性化需求的增加、数据挖掘和机器学习技术的发展,以及营销精准化的需求。通过深入挖掘和分析大数据,可以实现对用户的全面描述和精准预测,为个性化服务和精准营销提供有力支持。

1.2  国内外研究现状

大数据用户画像是一个研究热点领域,国内外都有许多相关的研究工作。以下是大致的国内外研究现状:

国外研究现状:

美国:美国在大数据用户画像的研究方面较为领先。例如,谷歌通过分析用户的搜索记录、地理位置等数据,构建了个性化的广告推荐系统。Facebook也利用用户的社交媒体行为和兴趣偏好进行广告定向投放。

欧洲:欧洲的研究主要集中在个人隐私保护与数据安全方面。政府和学术界提出了一系列法规和准则,限制和规范了大数据用户画像的应用。同时,也有一些研究关注用户画像的精细化分类和预测技术。

国内研究现状:

互联网巨头:中国的互联网巨头如阿里巴巴、腾讯、百度等在大数据用户画像方面展开了大量研究和应用。他们通过分析用户的购物、搜索、社交等数据,构建了个性化推荐系统和精准广告投放平台。

学术界研究:中国的一些高校和研究机构也开展了大数据用户画像的研究。他们运用机器学习、数据挖掘等技术,通过分析用户的行为数据、社交网络数据等,进行用户特征提取、用户分类和用户需求预测等工作。

产业应用:在金融、电商、营销等行业,大数据用户画像得到了广泛应用。例如,金融机构利用用户的信用卡消费记录和交易行为,进行个人信用评估和风控管理。电商平台根据用户的购物行为和偏好,提供个性化的商品推荐和定制化服务。

需要注意的是,大数据用户画像涉及到用户隐私和数据安全等敏感问题,各国都在加强相关法规和标准的制定和执行。因此,在进行大数据用户画像研究和应用时,需要充分尊重用户隐私,确保数据的合法获取和使用,以保护用户的权益。

1.3  论文结构

本文分为六章,主要内容如下:

第一章:绪论。论述研究背景与研究意义,对国内外大数据应用对用户画像业发展影响进行分析。

第二章:开发技术。介绍设计中需要用到的开发技术,Spark,Python,Mysql数据库,Flask以及数据可视化工具。

第三章:需求分析。 本章主要介绍参与本系统中的主要用户构成,并逐一分析各个不同用的需求,并关联到具体的功能和构造上,总结需求,为设计做准备。

第四章:系统设计。通过需求分析的结果来构建系统的结构,并分析系统的基础框架,同时还包括了系统的数据库设计等。

第五章:系统实现。 通过实际的代码编写来实现系统。

第六章:总结。总结做的工作以及存在的缺点。

2  开发技术

2.1  Spark 分布式框架

Spark是由UC Berkeley AMPLab实验室研发并开源的基于内存计算的高效分布式计算框架。相比于传统的Hadoop, Spark弓|进了弹性分布式数据块(resilient distributed dataset,RDD),高效的有向无环图(directed acyclic graph,DAG)执行引擎,提高了在大数据环境下流数据处理的实时性,同时保证了高容错性和高可伸缩性。除此之外,Spark还兼容分布式文件系统(hadoop distributed file system,HDFS)分布式存储、多语言编程接口以及实时数据流处理(spark streaming)、交互式查询(spark SQL)、机器学习 (spark MLlib)和图计算(spark GraphX)通用组件库来解决实时计算、机器学习和图计算等应用场景。整个Spark生态系统如图2-1所示。

图2-1  Spark的生态圈

2.2  Flume技术

使用 Apache Flume 可以方便地进行用户行为日志的采集和传输。下面是使用 Flume 采集用户行为日志的一般步骤:

安装和配置 Flume:首先,你需要下载并安装 Flume,并进行基本的配置。在配置文件中,你需要指定数据源、目标和数据传输方式。

定义数据源:在 Flume 中,可以使用各种数据源作为输入。对于用户行为日志,常见的数据源包括日志文件、消息队列、网络端口等。你需要根据实际情况选择合适的数据源,并在配置文件中进行相应的配置。

定义数据通道和处理器:在 Flume 中,可以定义多个数据通道(Channel)和处理器(Sink)。数据通道用于临时存储采集到的数据,而处理器则负责将数据传输到目标系统。

配置数据传输:根据目标系统的要求,你可以选择不同的 Sink 来实现数据传输。例如,如果你要将数据写入 Hadoop 的 HDFS,可以使用 HDFS Sink;如果要将数据传输到 Kafka 消息队列,可以使用 Kafka Sink。

启动 Flume:在完成配置后,你可以启动 Flume,并监控日志采集和传输的过程。Flume 将按照配置文件中定义的规则,自动采集和传输用户行为日志。

图2-2 Flume采集广电大数据流程

需要注意的是,在使用 Flume 进行用户行为日志采集时,你需要关注以下几点:

数据源的选择:根据实际情况选择合适的数据源,确保能够获取到用户行为日志数据。

数据通道和处理器的配置:根据目标系统的要求,配置合适的数据通道和处理器,确保数据能够按需求传输到目标系统。

数据安全和隐私保护:在采集用户行为日志时,需要遵守相关法规和政策,确保用户隐私和数据安全。采集过程中,应采取必要的措施,如数据脱敏、加密等,以保护用户的个人信息和敏感数据。

总之,通过使用 Apache Flume,你可以方便地进行用户行为日志的采集和传输。根据实际需求,灵活配置 Flume,将用户行为日志传输到目标系统,以支持后续的数据分析和应用。

2.3  Mysql

 MySQL是目前IT行业最流行的开放源代码的数据库管理系统,同时它也是一个支持多线程高并发多用户的关系型数据库管理系统。MySQL之所以受到业界人士的青睐,主要是因为其具有以下几方面优点:

(1)开放源代码

MySQL最强大的优势之一在于它是一个开放源代码的数据库管理系统。开源的特点是给予了用户根据自己需要修改DBMS的自由。

(2) 跨平台

MySQL可以在不同的操作系统下运行,简单地说,MySQL可以支持Windows系统、UNIX系统、Linux系统等多种操作系统平台。

(3) 轻量级

MySQL的核心程序完全采用多线程编程,这些线程都是轻量级的进程,它在灵活地为用户提供服务的同时,又不会占用过多的系统资源。因此MySQL能够更快速、高效的处理数据。

(4) 成本低

MySQL分为社区版和企业版,社区版是完全免费的,而企业版是收费的。免费的社区版支持多种数据类型和正规的SQL查询语言,能够对数据进行各种查询、增加、删除、修改等操作,所以一般情况下社区版就可以满足开发需求了,而对数据库可靠性要求比较高的企业可以选择企业版。

总体来说,MySQL是一款开源的、免费的、轻量级的关系型数据库,其具有体积小、速度快、成本低、开放源码等优点,其发展前景是无可限量的。

MySQL的执行流程如图2-3所示:

图2-3  Mysql的执行流程

解析器:在解析器中对 SQL 语句进行语法分析、语义分析。

优化器:在优化器中会确定 SQL 语句的执行路径,比如是根据全表检索,还是根据索引来检索等。

执行器:在执行之前需要判断该用户是否具备权限,如果具备权限就执行SQL查询并返回结果。

在 MySQL8.0 以下的版本,如果设置了查询缓存,这时会将查询结果进行缓存。

2.4 Flask

 Flask 是使用 Python 语言开发的一款免费而且开源的 Web 应用框架。由于 Python 语言的跨平台性,所以 Flask 同样支持 Windows、Linux 和 Mac 系统。

相对于 Python 的其他 Web 框架,Flask 的功能是最完整的,Flask 定义了服务发布、路由映射、模板编程、数据处理的一整套功能。这也意味着 Flask 模块之间紧密耦合。

Flask 的主要特点如下:

完善的文档:经过 10 余年的发展和完善,Flask 官方提供了完善的在线文档,为开发者解决问题提供支持。

集成 ORM 组件:Flask 的 Model 层自带数据库 ORM 组件,为操作不同类型的数据库提供了统一的方式。

URL 映射技术:Flask 使用正则表达式管理URL映射,因此给开发者带来了极高的灵活性。

后台管理系统:开发者只需通过简单的几行配置和代码就可以实现完整的后台数据管理Web控制台。

错误信息提示:在开发调试过程中如果出现运行异常,Flask 可以提供非常完整的错误信息帮助开发者定位问题。

3  需求分析

3.1  可行性分析

3.1.1  经济可行性

开发系统所涉及到的资料,一般是在图书馆查阅,或是在网上进行查找收集。所需要的一些应用软件也都是在网上可以免费下载的,因此,开发成本是几乎为零。但是开发出来的系统,还是具有高效率,低成本,较高质量的。所以,从经济可行性的角度,该系统符合标准。

3.1.2  技术可行性

技术可行性是考虑在现有的技术条件下,能否顺利完成开发任务。以及判断现有的软硬件配置是否能满足开发的需求。而本系统采用的是本地机器开发框架,并非十分困难,所以在技术上是绝对可行的。此外,计算机硬件配置是完全符合发展的需要。

3.1.3  运行可行性

当前计算机信息化的知识已经十分普及了,现在的操作人员也都是对系统环境有很强的适应性,各类操作人员大都是有过培训补充的,因此完全不影响组织结构,所以在运行上也是可行的。

3.1.4  时间可行性

从时间上看,在大四的最后一个学期,在实习工作与完成毕设两件大事相交叉的时间里,结合之前学习的相关知识,并开发系统,时间上是有点紧,但是也不是完全没可能实现,通过这段时间的努力功能基本实现。

3.2  功能需求分析

3.2.1  总体流程

用户画像网站数据采集及分析系统通过对主流的用户画像信息网站的数据进行抓取,通过定向分析之后,得到了有价值的数据并呈现到前端页面中,同时将具体的业务映射到系统功能中,构成一个完整的系统。本流程中主要分为三部分,数据采集和预处理、数据分析和数据可视化,三部分互相关联,其中,数据采集得到的有效数据大部分是需要通过数据分析过程的,小部分的数据能直接的使用到前端页面中。通过三部分的关联,就可以完整的展现出系统的基本结构。

3.2.2  数据采集

数据采集流程是系统中所有的数据信息的起始,通过这个流程来获取所有的数据信息,交付给数据分析部分最后呈现到页面上。因此,数据采集部分的功能非常重要,具体如图3-1所示。

图3-1  数据采集用例

从图3.2.2可以看出,数据采集的主要任务是抓取工作,包含了四个部分,分别为抓取入口管理、初始数据管理、抓取任务管理和抓取规则管理: 一、抓取入口管理是针对一些特定的网站,需要对抓取的入口网页进行分析,同时对入口方法进行总结,当入口发生变化的时候,需要及时的进行更换和调整,保证系统的抓取流程能一直畅通, 获取更大量的数据信息;二、初始数据管理,初始数据包含了数据提交和数据转换,这对应着不同的数据信息,数据提交的是可以直接进行数据呈现的信息,包括了一些不需要更换的,维护性不强的信息,如景点的介绍信息或者是城市的描述信息等,另外一部分就是需要通过数据分析模块进行分析得到的二次甚至是多次数据,这些数据就需要通过数据转换之后才能进行提交;三、抓取任务管理,当系统中有抓取任务的时候,就需要对任务进行管理,其中包含了任务启动、任务终止和任务变更,这些都是对应着系统的数据需求,当需要不同类型的数据信息的时候,系统中就会提来获取抓取任务,进行数据的抓取;四、抓取规则管理,针对特定的网站,其中所包含的数据字段都是特定的,但是也会随着不同的时间而发生变化,此时,需要根据变化的时间进行更换,对抓取规则进行更换,保证抓取的数据字段不会发生紊乱。

3.2.3  数据分析

数据分析部分是紧接着数据采集和预处理之后的部分,在这个部分,需要了解所抓取的数据所包含的内容,也就是数据的定位和所需要分析的价值是哪些,当明确了这些问题之后,就可以根据对应的数据信息进行分析,采用不同的分析方法来得到价值信息。

3.3  非功能需求分析

非功能性需求不是用户实际提出来的,而且纵观这个系统,为了使用户有良好的使用性和用户体验,并把它作为一个优秀的软件而继续使用的一种重要的因素,因此非功能需求的分析是不可或缺的。

  1.  系统响应

响应时间是用户最为关注的一个指标,当用户点击了所需要的功能后,系统反馈的显示信息如果不能在有效反映时间内出现就会导致用户对系统产生厌烦和抵触。因此,系统响应时间很重要,本系统指定的系统响应时间为5秒以内,保证系统的功能反应最慢不超过5秒钟。

  1.  功能可靠

主要是系统在整个运行周期里都需要与所有的客户端保持高效连接,并且在用户发出了功能需求的时候,系统在进行事务交互或者数据查找的时候不会出现死锁的情况,保证系统的所有功能都能正常的运行。

  1.  方便使用

让用户使用起来更加便捷和顺畅是设计系统的基础,因此,无论是在设计系统的功能,还是在进行功能的逻辑衔接的时候都需要考虑到系统的功能结构,不要让用户在使用过程中,违背正常的使用规则,让一个业务操作可以按照惯常的方式来完成,并可以适当的使用提示信息,方便用户的功能选择和使用,提高系统功能的实用性。

  1.  高效运维

系统在设计完成之后,需要对系统进行运维,维护功能都是依赖于系统的基础性设计,因此,结构设计上就需要考虑到后期调整时的方便。另外系统在进行升级的时候,不需要让用户端进行复杂的操作,简化用户操作,提高运维的高效性。

4  系统设计

4.1  总体设计

在任何信息系统当中有价值的数据都是必不可少的重要部分,如何通过手上

的资源获取得到有价值的数据便是开发系统。首先需要考虑的问题根据系统的功能设计数据获取和处理的流程以及其实现方法都已经基本上确定获取和处理流程。广电用户用户画像系统是将数据采集、数据分析和数据可视化融合为一体的分析系统,下面系统的功能结构图,如图4-1所示。

图4-1  系统架构图

从图4-1可以发现,流程中主要分为三部分,数据采集和预处理、数据分析和数据可视化,三部分互相关联,其中,数据采集得到的有效数据大部分是需要通过数据分析过程的,小部分的数据能直接的使用到前端页面中,例如具体的景点信息和机场信息等,这些不需要进一步分析,直接传递给数据库提供给前端页面的使用;而另外一部分就需要使用到数据分析过程,通过数据分析之后的价值信息可以通过图表或者是文本形式展现给用户页面。通过三部分的关联,就可以完整的展现出系统的基本结构。

4.2 数据采集

这个项目我们的主要目的是采集广电用户大数据信息,下面描述本文采集工程主要设计步骤。

  1. 创建项目, flume读取了日志文件,需要根据日志文件的类别,进行区分,事件日志写入topic_log_event主题,启动日志 写入topic_log_start主题,这就需要对flume的event数据进行标记,需要在在拦截器中根据每个数据,在event的头部信息打上topic的区分标记系统生成的目录如下图4-2所示:

图4-2  日志采集框架目录结构

  1. 修改setting文件

如表4-1所示为修改后的setting文件主要内容,本设计主要修改三项内容,第一个是不遵循机器人协议,第二个是下载间隙,由于下面的程序要下载多个页面,所以需要给一个间隙(不给也可以,只是很容易被侦测到),第三个是请求头,添加一个User-Agent。

表4-1  日志采集setting文件主要配置

//自定义拦截器

public class LogInterceptor implements Interceptor {

    public void initialize() {

    }

    public Event intercept(Event event) {

        //单事件拦截 判断收据的数据格式是否都是{} 这种格式

        byte[] body = event.getBody();//获取event内容

        try {

            String s_body=new String(body,"UTF-8"); //转成字符串

            if(s_body==null){

                return null;

            }

            return event;

        } catch (UnsupportedEncodingException e) {

            e.printStackTrace();

        }

        return null;

    }

    public List<Event> intercept(List<Event> events) {

        List<Event> outlist=new ArrayList<Event>();

        for(Event e:events){

            Event ev = intercept(e);

            if(ev!=null){

                outlist.add(ev);

            }

        }

        return outlist;

    }

    public void close() {

    }

    public static  class Builder implements Interceptor.Builder{

        public Interceptor build() {

            return new LogInterceptor();

        }

        public void configure(Context context) {

          //todo 无配置参数

        }

    }

}

5.  系统实现

5.1  大数据环境搭建

5.1.1  部署HDFS

(1)在master服务器上确定存在hadoop安装目录

[root@master ~]# ls  /usr/cstor/hadoop

(2)设置JDK安装目录

编辑文件“/usr/cstor/hadoop/etc/hadoop/hadoop-env.sh”,找到如下一行:

export JAVA_HOME=${JAVA_HOME}

将这行内容修改为:

export JAVA_HOME=/usr/local/jdk1.7.0_79/

(3) 指定HDFS主节点

编辑文件“/usr/cstor/hadoop/etc/hadoop/core-site.xml”,将如下内容嵌入此文件里最后两行的<configuration></configuration>标签之间:

<property>

  <name>hadoop.tmp.dir</name>

  <value>/usr/cstor/hadoop/cloud</value>

</property>

<property>

  <name>fs.defaultFS</name>

  <value>hdfs://master:8020</value>

</property>

(4) 在master服务器上格式化主节点:

[root@master ~]# hdfs  namenode  -format

统一启动HDFS:

[root@master ~]#cd /usr/cstor/hadoop

[root@master hadoop]# sbin/start-dfs.sh

(5) 通过查看进程的方式验证HDFS启动成功

[root@master sbin]#  jps #jps查看java进程

若启动成功,会看到类似的如下信息:

6208 NameNode

6862 Jps

6462 SecondaryNameNode

图5-1  Hadoop启动成功效果图

5.1.2  部署Spark集群

(1) 在master上操作:确定存在spark。

[root@master ~]# ls /usr/cstor

spark/

[root@master ~]#

在master机上操作:进入/usr/cstor目录中。

[root@master ~]# cd /usr/cstor

[root@master cstor]#

进入配置文件目录/usr/cstor/spark/conf, 先拷贝并修改slave.templae为slave。

[root@master ~]# cd /usr/cstor/spark/conf

[root@master cstor]# cp  slaves.template slaves

(2) 在spark-conf.sh中加入JAVA_HOME。

[root@master cstor]# vim /usr/cstor/spark/sbin/spark-config.sh

加入以下内容

export JAVA_HOME=/usr/local/jdk1.7.0_79

(3) 启动Spark集群。

[root@master local]# /usr/cstor/spark/sbin/start-all.sh

图5-2  Spark启动成功效果图

5.2  后台系统

5.2.1  登录

用户登录时需要在登录界面输入用户名、密码进行身份认证,要求必须是表单认证、校验。其配置文件中配置了相应的Realm 类,当用户登录系统进行身份认证和权限控制时,Shiro会在该类中从数据库获取到用户信息及其具有的权限信息,并 且比较用户输入的账号是否存在或者输入的密码与数据源中的密码是否匹配。在实际实现中, 程序中自定义了MyRealm 类继承Realm 类,并重写了doGetAuthenticationInfo( )认证方法和doGetAuthorizationInfo( )授权方法。具体流程如时序图如5-3所示。

图5-3  登录界面

5.2.2  广电用户画像首页

如果用户要查看用户画像的信息,就需要进入到用户画像的管理页面中,添加用户画像的相关信息,并且要注意输入正确的信息,输入的用户画像记录与数据库的记录不能冲突。添加用户画像会有用户画像的详细信息,当然用户也可以对用户画像信息进行删除。效果如图5-4所示。

图5-4  用户画像首页界面

5.3  广电用户画像看板

数据可视化模块就是对我们采集和计算的分析结果的展示。数据分析模块的

数据进行一个精美而又直接的展示,我们采用大屏的方式进行展示,展示数据结构分明,背景具有科技感,把相对复杂的、抽象的数据通过可视的、交互的方式

进行展示,从而形象直观地表达数据蕴含的信息和规律。广电大数据用户画像可视化看板界面如图5-5所示。

图5-5 用户画像系统看板界面

广电大数据用户画像可视化分析可视化开发的难点并不在于图表类型的多样化,而在于如何能在简单的一页之内让用户读懂招聘数据之间的层次与关联,这就关系到布局、色彩、图表、动效的综合运用。如排版布局应服务于业务,避免为展示而展示;配色一般以深色调为主,注重整体背景和单个视觉元素背景的一致性。本文使用Echarts中地图、线条等组件,将分析结果较为直观的展示给平台用户,使得用户能够简便的获取有效的信息。

5.4  本章小结

本章主要分析了基于大数据的用户画像信息可视化分析系统开发过程中使用到的技术和具体的实现步骤,这其中主要介绍了基于Spark框架的用户画像信息可视化用户画像系统的搭建环境和开发步骤,包括程序中的一些数据库配置等。前端页面采用的是Echarts和html实现。

6  总结

6.1  结论

本文从整体框架出发,对广电用户用户画像系统进行了设计和实施。同时,为更好的完成此次的毕业设计和论文,我们也了解到很多的程序和程序代码。该广电用户用户画像系统具有以下优点:

(1)这个广电用户用户画像系统是以Flask开放源码系统结构为基础的,它的核心理念是分层,把所有的工程划分为不同的等级,分层的概念不仅可以简化业务过程的逻辑,降低了冗余的冗余,还可以促进工程具有更强的移植性。

(2)一个广电用户用户画像系统理制度定义了很多共同的控制单元,所有的单元都要包含一个共同的控制单元,如果在各个单元的代码中都有一个共同的控制单元,那么这个单元就会给人一种代码多余的感觉,这样就可以将所有的控制单元分开。

(3)在先前的实施系统的基础上,采用分页技术来完成多个页面的显示。

6.2  展望

近年来,我国的广电用户用户画像系统已具有相当大的发展空间,只要能够扩大规模,做好相关的相关业务,其发展前景不可低估。该系统具有良好的视觉效果、运行稳定、易于维修等特点。不过,因为自己的编程水平,这套系统还是需要完善的。

用户画像的隐私保护是一个重要的要求。在用户数据的采集和使用过程中,需要遵守相关的法律法规,确保用户的隐私权不受侵犯。可以采取数据匿名化、数据加密和访问权限控制等措施,保障用户数据的安全和隐私。

广电大数据用户画像的主要内容包括数据采集和处理、用户特征分析、用户行为分析、兴趣偏好分析、用户画像构建以及个性化推荐。同时,要求数据的准确性、及时性、全面性,以及对用户隐私的尊重和保护。

参 考 文 献

  1. 徐涛,黄莉,李敏蕾,等.基于多维细粒度行为数据的居民用户画像方法研究[J].电力需求侧管理,2019,21(3):47-52.
  2. 宋美琦,陈烨,张瑞.用户画像研究述评[J].情报科学,2019,37(4):171-177.
  3. 李晓丹.微信朋友圈用户行为与社交关系分析[J].新媒体研究,2019(13):19-20.
  4. 赵雅慧,刘芳霖,罗琳.大数据背景下的用户画像研究综述:知识体系与研究展望[J].图书馆学研究,2019(24):13-24.
  5. 邹小军.基于大数据的用户画像分析[J].信息通信技术,2019(S1):57-61.
  6. 张升魁.大数据视阈下犯罪人社会画像系统的构建[J].河北公安警察职业学院学报,2020(1):47-52.
  7. 段黎宇.运用心理画像预测犯罪的可行性构想与发展困境[J].铁道警察学院学报,2020(3):75-82.
  8. 徐华,张家鹏.用户画像技术与专业社会工作[J].社会工作与管理,2020(3):50-56.
  9. 张宇, 阮雪灵. 大数据环境下移动用户画像的构建方法研究[J]. 中国信息化, 2020(4): 65-68.
  10. 王凯,潘玮,杨枢,翟菊叶.基于模糊概念格的丁香园社区用户多粒度画像研究[J].情报理论与实践,2020(8):103-111.
  11. Liu Y D,Ge K K,Zhang X,et al.Real-Time Attention Based Look-Alike Model for Recommender System[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.2019:2765-2773.
  12. Kim D,Honora N.Personas:An Assessment Tool for Space and Service Design[EB/OL][2019-11-26].https://scholarworks.gsu.edu/cgi/viewcontent.cgi?article=1001&context=southeasternlac.
  13. Aurora Harley.Personas Make Users Memorable for Product Team Members[EB/OL][2019-11-27].https://www.nngroup.com/articles/persona/.
  14. Kim E G,Chun S H.Analyzing Online Car Reviews Using Text Mining[J].Sustainability,2019,11(6):1611.
  15. GUARINO S,LEUZZI F,LOMBARDI F,et al.Traffic Data Classification for Police Activity[M]//Lecture Notes in Computer Science.Springer Nature Switzerland,2018:169-178.

致  谢

时间过的飞快,我的大学生涯也即将结束,通过前期的知识储备和论文的撰写,让我明白了做好一件事所需要的不仅仅是方法,还有耐心,最重要的是得到大家的帮助,在此,我要感谢所有帮助过我的人。

首先,我要感谢我的导师,从论文定题开始到论文的不断修改,导师都给了我很多的指导和帮助,在这个过程,我成长的很快,也从一开始的不断犯错到后来的不断总结,了 解了程序开发的基本规范,明白了数据分析的意义和价值,清楚了论文撰写的严谨和科研的认真态度,导师是我的榜样,他的一言一行都在影响着我,让我在今后的人生道路中不断积累,不断前行。

其次,我也要感谢宿舍里的同窗,虽然宿舍里的人来自不同的地区,她们的经历也不同,但是在共同的学习和生活中,她们不仅互相帮助,还互相帮助,互相帮助。我们共同面对并解决了许多问题,这些都使我感到温暖。

最后,我要感谢我的家人,我的求学过程都是在家人的支持下进行的,没有他们的付出,我不能顺利的完成学业,在此,感谢他们的无私奉献。

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值