基于元宇宙的新闻分析推荐系统的研究与实现

最新推荐文章于 2024-10-01 15:18:41 发布

程序源码老李

最新推荐文章于 2024-10-01 15:18:41 发布

阅读量826

点赞数 30

分类专栏：程序源码小程序 java 文章标签：数据挖掘人工智能 sql 数据库深度学习

本文链接：https://blog.csdn.net/2301_79305643/article/details/140909903

版权

程序源码同时被 3 个专栏收录

200 篇文章 1 订阅

订阅专栏

小程序

181 篇文章 0 订阅

订阅专栏

java

160 篇文章 0 订阅

订阅专栏

基于元宇宙的新闻分析推荐系统的研究与实现

摘要：目前,我国现有的发布新闻信息的网站或APP较多,而且现有的新闻网站发布的信息良莠不齐,夹杂着大量无用的新闻信息,这会让阅读新闻的用户在使用这些新闻软件获取新闻信息时难以分辨有效的信息，阅读新闻的效率会很低。如果开发一套Web系统将市面上的新闻信息通过大数据技术进行存储、计算与智能化分析,将会给阅读新闻人员提供巨大的好处。

本文设计了基于大数据的新闻网站后台分析系统，本系统的核心功能是通过爬取中关村海量新闻信息的原始数据，并通过大数据技术将原始数据存储、计算，并将分析的结果以分析推荐列表形式展示。

本论文的主要研究工作及取得的成果如下:

使用Django等软件开发技术,设计并成功开发出了一套基于协同过滤算法的新闻数据分析后台软件系统,使用基于Python语言的网络爬虫,爬取了新闻网站上的新闻信息。对爬取到的原始数据进行数据清洗后存储到计算机上，然后使用Spark中的协同过滤模型对数据计算,最后将结果保存至MySQL中存储分析。

基于Spark的智能推荐系统已经成为了新闻提高客户体验和营收的重要手段。通过数据清洗、特征提取、模型训练、模型评估和在线推荐，可以构建出高效准确的智能推荐系统。将来，基于Spark的智能推荐系统将会在更多的领域得到广泛应用，并发挥更大的作用。

关键词：新闻数据；Django； Spark；协同过滤

Research and implementation of news analysis and recommendation system based on meta-universe

Abstract: At present, there are many websites or apps that release news information in China, and the information released by existing news websites is mixed with a large number of useless news information, which will make it difficult for users to distinguish effective information when using these news software to obtain news information, and the efficiency of reading news will be very low. If a Web system is developed to store, calculate and intelligently analyze news information on the market through big data technology, it will provide huge benefits to news readers.

This paper designs a background analysis system for news websites based on big data. The core function of this system is to extract the original data of massive news information in Zhongguancun, store and calculate the original data through big data technology, and display the analysis results in the form of classified prediction lists.

The main research work and achievements of this paper are as follows:

Using Django and other software development technology, a set of news data analysis background software system based on collaborative filtering algorithm was designed and successfully developed, and the news information on the news website was crawled by using a web crawler based on Python language. The original crawled data is cleaned and stored on the computer. Then the collaborative filtering model in Spark is used to calculate the data. Finally, the results are saved to MySQL for storage and analysis.

Intelligent recommendation systems based on Spark have become an important means for enterprises to improve customer experience and revenue. Through data cleaning, feature extraction, model training, model evaluation and online recommendation, an efficient and accurate intelligent recommendation system can be built. In the future, the intelligent recommendation system based on Spark will be widely used in more fields and play a greater role.

Keywords: news data; Django; Spark; Collaborative filtering

1 绪论

1.1研究背景

在如今的互联网时代下，用户阅读新闻也由传统的线下转型为互联网，目前市场上流行的新闻软件和网站种类繁多，新闻信息分类标准也参差不齐，相对比较知名且应用广泛的新闻信息发布平台有新浪微博、新华日报新闻等。在上述平台中每天都会发布海量的新闻信息和阅读新闻信息，然而由于网络信息存在一定的虛假性,这会给阅读新闻的用户带来一定的误导效果，导致网上阅读新闻过程的体验不佳。并且由于各平台之间的用户数据不互通，用户需要来回反复的进行注册登录操作，这一过程也会浪费大量时间和精力。

总而言之，从上述问题可以看出目前互联网新闻信息平台信息缺乏整合，用户在冗杂的新闻信息中难以筛选出有效的信息。本论文拟初步研究开发出一套完整的基于大数据平台的新闻平台信息分析系统，本系统主要用于对新闻信息和公司信息进行采集，通过大数据平台对数据进行存储和计算，将大数据分析结果以分析推荐形式给用户查询。这样，用户在使用本平台时只需一次注册操作，即可浏览各平台发布的新闻信息，并且可以根据用户的条件进行筛选，可极大的提高阅读新闻效率，给阅读新闻的用户都带来一定的便利。

1.2国内外研究现状

新闻推荐系统是信息检索和推荐系统领域的重要研究方向，国内外学者进行了大量相关研究。以下是一些新闻推荐系统领域的国内外研究现状：

协同过滤算法的应用：

国际上，协同过滤算法是新闻推荐系统中应用最广泛的方法之一。研究者不断改进传统的协同过滤算法，如基于矩阵分解的方法（如ALS算法）以及基于邻域的方法，以提高推荐的准确性和个性化程度。

在国内，许多研究机构也对协同过滤算法进行了深入研究，并结合了大数据和用户行为数据进行优化，以适应中国用户的使用习惯和特点。

深度学习在新闻推荐中的应用：

国际上，深度学习技术在新闻推荐系统中得到了广泛的应用，如使用卷积神经网络（CNN）、循环神经网络（RNN）和注意力机制（Attention）等模型来挖掘用户兴趣和提高推荐的准确性。

在国内，也有不少研究致力于将深度学习技术应用于新闻推荐系统，通过大规模的深度学习模型训练和推理，提高用户个性化推荐的精度和效果。

多源异构信息融合：

国际上和国内都有研究专注于如何整合来自不同来源和不同类型的信息，如文本、图片、视频等，以提供更丰富和多样化的新闻推荐。

尤其是在移动互联网时代，用户获取信息的方式更加多样化和碎片化，因此如何有效地整合和利用多源信息成为了新闻推荐系统研究的一个重要方向。

个性化推荐与隐私保护：

个性化推荐一直是新闻推荐系统关注的重点，如何根据用户的兴趣和偏好进行个性化推荐，同时又能够保护用户的隐私成为了研究的热点之一。

国际上和国内都有研究致力于在个性化推荐的同时保护用户隐私，涉及到数据脱敏、差分隐私等方面的技术探索和应用。

总的来说，新闻推荐系统的研究领域涵盖了推荐算法、深度学习、多源信息融合、个性化推荐和隐私保护等多个方面，国内外学者在这些领域都展开了深入的研究，取得了许多有意义的成果。

1.3论文主要研究工作

为了实时了解各行业最新最热的技术、最火热的标题、薪资最高的标题光靠人工收集并采用普通的方式进行分析十分浪费人力物力，并且效率和体验都不好，因此开发一套基于大数据的新闻数据分析系统显得尤为重要。本论文所设计的基于大数据平台的新闻信息分析系统的最核心功能是对海量新闻信息的列表展示，并将大数据计算分析的结果以科技大屏分析推荐形式展出，使得用户能够非常直观的获取到当下的行业新闻信息。

本系统首先需要提供给客户管理和使用的数据。本文使用基于Python语言的Django框架的网络爬虫技术爬取用户使用率较高的新闻网站上实时的新闻信息以及公司信息作为数据来源，以此作为大数据分析的关键数据支撑。然后使用推荐系统算法,使用Spark推荐系统算法框架对海量的新闻信息数据进行数据清洗，数据融合，计算，分析等流程，数据通过处理后持久化到MySQL数据库中存储。在计算出分析结果数据后，使用Django等软件开发技术等框架完成基于大数据分析平台系统的后台的开发。

本文开发一套Web系统将市面上的新闻信息通过大数据技术进行存储、计算与智能化分析,在提供新闻信息列表展示以及筛选功能的同时，还为用户提供个人信息管理，注册修改等功能，这样做便使得该系统成为功能相对完整，业务逻辑清晰，可大幅度提高阅读新闻的效率。基于Spark的智能推荐系统已经成为了企业提高客户体验和营收的重要手段。通过数据清洗、特征提取、模型训练、模型评估和在线推荐，可以构建出高效准确的智能推荐系统。将来，基于Spark的智能推荐系统将会在更多的领域得到广泛应用，并发挥更大的作用。

2 技术总述

2.1 基于Scrapy的网络爬虫技术

Scrapy是目前较为成熟的爬虫技术框架，一般采用Python语言开发程序，Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

在本设计中，由于需要使用到新闻网站的原始数据，因此需要开发相应的网络爬虫程序完成对新闻原始数据的采集，图2-1为爬取新闻网站的新闻数据的原理流程图。

图2-1新闻网站爬虫原流程图

2.2 推荐系统算法

协同过滤是一种常见的推荐系统算法，它基于用户行为数据来识别用户之间的相似性，并根据这种相似性向用户推荐他们可能感兴趣的物品。协同过滤算法通常分为两种类型：基于用户的协同过滤和基于物品的协同过滤。

基于用户的协同过滤：

基于用户的协同过滤算法通过比较用户对物品的评价或行为来确定用户之间的相似性。如果两个用户在过去喜欢或者不喜欢相似的物品，那么他们在未来可能会有相似的偏好。当需要为某个用户生成推荐列表时，可以找到与该用户相似度最高的其他用户，然后将这些相似用户喜欢的物品推荐给该用户。

基于物品的协同过滤：

基于物品的协同过滤算法则更加侧重于分析物品之间的相似性。它通过计算不同物品被用户喜欢的程度来确定物品之间的相似性，然后根据用户的历史偏好向其推荐和其历史喜欢的物品相似的其他物品。

实际上，协同过滤算法并不需要显式地了解物品或用户的特征信息，它完全依赖于用户对物品的行为数据（如评分、点击、购买记录）来进行推荐。然而，协同过滤算法也存在一些问题，比如冷启动问题（针对新用户或新物品的推荐困难）和稀疏性问题（用户对物品的行为数据非常稀疏）等。

除了传统的基于协同过滤的算法外，还有基于深度学习的协同过滤方法，如基于神经网络的推荐系统，它们可以利用神经网络模型来学习用户和物品之间的复杂交互关系，从而提高推荐的准确性和效果。

总的来说，协同过滤算法是推荐系统中非常重要且有效的一种方法，它能够根据用户行为数据为用户提供个性化的推荐，得到了广泛的应用。

2.3 Django技术

Django是一个开放源代码的Web应用框架，由Python写成。采用了MTV的框架模式，即模型M，视图V和模版T。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以新闻内容为主的网站的，即是CMS（内容管理系统）软件。并于2005年7月在BSD许可证下发布。这套框架是以比利时的吉普赛爵士吉他手Django Reinhardt来命名的。2019年12月2日，Django 3. 0发布。

Django是高水准的Python编程语言驱动的一个开源模型．视图，控制器风格的Web应用程序框架，它起源于开源社区。使用这种架构，程序员可以方便、快捷地创建高品质、易维护、数据库驱动的应用程序。这也正是OpenStack的Horizon组件采用这种架构进行设计的主要原因。另外，在Django框架中，还包含许多功能强大的第三方插件，使得Django具有较强的可扩展性 [2] 。Django 项目源自一个在线新闻 Web 站点，于 2005 年以开源的形式被释放出来。其工作流程主要可划分为以下几步：

1.用manage .py runserver 启动Django服务器时就载入了在同一目录下的settings .py。该文件包含了项目中的配置信息，如前面讲的URLConf等，其中最重要的配置就是ROOT_URLCONF，它告诉Django哪个Python模块应该用作本站的URLConf，默认的是urls .py

2.当访问url的时候，Django会根据ROOT_URLCONF的设置来装载URLConf。

3.然后按顺序逐个匹配URLConf里的URLpatterns。如果找到则会调用相关联的视图函数，并把HttpRequest对象作为第一个参数(通常是request)

4.最后该view函数负责返回一个HttpResponse对象。

2.4 Echarts可视化技术

Apache ECharts 是一款基于Javascript的数据分析推荐图表库，提供直观，生动，可交互，可个性化定制的数据分析推荐图表。ECharts 开源来自百度商业前端数据分析推荐团队，基于htm15 Canvas，它是一个纯Javascrint,图表库，提供直观，生动，可交互，可个性化定制的数据分析推荐图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验，赋予了用户对数据进行挖掘、整合的能力。

2.5 Spark分布式框架

Spark是由UC Berkeley AMPLab实验室研发并开源的基于内存计算的高效分布式计算框架。相比于传统的Hadoop， Spark弓|进了弹性分布式数据块(resilient distributed dataset，RDD)，高效的有向无环图(directed acyclic graph，DAG)执行引擎，提高了在大数据环境下流数据处理的实时性，同时保证了高容错性和高可伸缩性。除此之外，Spark还兼容分布式文件系统(hadoop distributed file system，HDFS)分布式存储、多语言编程接口以及实时数据流处理(spark streaming)、交互式查询(spark SQL)、机器学习 (spark MLlib)和图计算(spark GraphX)通用组件库来解决实时计算、机器学习和图计算等应用场景。整个Spark生态系统如图2-2所示。

图2-2 Spark的生态圈

2.6 本章小结

本章主要分析了系统开发过程中使用到的技术点和框架，通过研究这些技术的原理后，在本设计中加以应用，包括新闻信息采集的爬虫技术，推荐系统算法，以及基于Django框架的系统后台技术，通过预研上述技术点并加以应用从而开发出基于大数据分析平台的新闻数据分析系统。

3 新闻信息分析推荐系统实现

3.1系统功能

通过前面的功能分析可以将基于大数据的新闻信息分析平台的研究与实现的功能主要包括用户登录、新闻信息管理、数据分析推荐等内容。后台管理是针对已登录的用户看到满意的新闻数据分析而设计的。

3.2可行性研究

通过对系统研究目标及内容的分析审察后，提出可行性方案，并对其进行论述。主要从技术可行性出发，再进一步分析经济可行性和操作可行性等方面。

3.2.1 经济可行性

开发系统所涉及到的资料，一般是在图书馆查阅，或是在网上进行查找收集。所需要的一些应用软件也都是在网上可以免费下载的，因此，开发成本是几乎为零。但是开发出来的系统，还是具有高效率，低成本，较高质量的。所以，从经济可行性的角度，该系统符合标准。

3.2.2 技术可行性

技术可行性是考虑在现有的技术条件下，能否顺利完成开发任务。以及判断现有的软硬件配置是否能满足开发的需求。而本系统采用的是推荐系统算法开发框架，并非十分困难，所以在技术上是绝对可行的。此外，计算机硬件配置是完全符合发展的需要。

3.2.3 运行可行性

当前计算机信息化的知识已经十分普及了，现在的操作人员也都是对系统环境有很强的适应性，各类操作人员大都是有过培训补充的，因此完全不影响组织结构，所以在运行上也是可行的。

3.2.4 时间可行性

从时间上看，在大四的最后一个学期，在实习工作与完成毕设两件大事相交叉的时间里，结合之前学习的相关知识，并开发系统，时间上是有点紧，但是也不是完全没可能实现，通过这段时间的努力功能基本实现。

3.3 系统实现流程

(1)明确目的

在设计新闻信息大数据分析平台初期需要了解如何获取新闻信息原始数据

是非常基础也是关键的一步。要了解大数据分析平台期望达到什么样的运营效

果，从而在标签体系构建时对数据深度、广度及时效性方面作出规划，确保底层

设计科学合理。

(2)数据采集

只有建立在客观真实的数据基础上，大数据计算分析的结果才有效。在采集

数据时，需要考虑多种维度，比如不同行业新闻数据、各行业数据、等等，还可以通过行业调研、用户访谈、用户信息填写及问卷、平台前台后台数据收集等方式获得。

(3)数据清洗

就对于各大新闻网站或者APP平台采集到的数据而言，可能存在非目标数据、

无效数据及虛假数据，因而需要过滤原始数据，去除一些无用的信息以及脏数据,

便于后续的处理。

(4)特征工程

特征工程能够将原始数据转化为特征，是--些转化与结构化的工作。在这个

步骤中，需要剔除数据中的异常值并将数据标准化。

(5)数据计算

在这一步我们将得到的数据存储到大数据分析平台，通过开发推荐系统算法,

程序对原始数据进行计算，将不同维度的结果存储到Mysql中。

(6)数据展示

分析结果可以通过大数据后台展示到前端界面，对于普通用户而言，只需.

要登录到该后台系统，就可以获取到新闻数据分析后的计算结果，从而了解行业

的新闻情况，对于阅读新闻的用户而言可以极大地提高效率。

3.4系统平台架构

在任何信息系统当中有价值的数据都是必不可少的重要部分，如何通过手上

的资源获取得到有价值的数据便是开发系统。首先需要考虑的问题根据系统的功

能设计数据获取和处理的流程以及其实现方法都已经基本上确定获取和处理流

程。

3.5 新闻数据爬虫设计

这个项目我们的主要目的是爬取新闻网的新闻数据信息，包括新闻标题、新闻名称和新闻描述具体详情信息，下面描述本文爬虫工程主要设计步骤。

这个项目我们的主要目的是采集新闻数据信息，下面描述本文采集工程主要设计步骤。

图4-1 新闻采集框架目录结构

如表4-1所示为新闻采集的核心代码，我们首先使用requests库向指定URL发送GET请求，获取网页的HTML内容。然后，使用BeautifulSoup库解析HTML内容，定位到包含新闻标题和内容的HTML元素，并提取它们的文本信息。

表4-1 新闻采集的核心代码

import requestsfrom bs4 import BeautifulSoup

# 发起网络请求获取网页内容

url = 'https://www.example.com/news'

response = requests.get(url)

# 使用BeautifulSoup解析网页内容

soup = BeautifulSoup(response.content, 'html.parser')

# 定位新闻标题和内容所在的HTML元素

news_titles = soup.find_all('h2', class_='news-title')

news_contents = soup.find_all('div', class_='news-content')

# 提取新闻标题和内容for title, content in zip(news_titles, news_contents):

print("标题:", title.text)

print("内容:", content.text)

print("\n")

3.6 推荐系统程序设计

3.6.1 大数据环境搭建

(1)在master服务器上确定存在hadoop安装目录

[root@master ~]# ls /usr/cstor/hadoop

(2)设置JDK安装目录

编辑文件“/usr/cstor/hadoop/etc/hadoop/hadoop-env.sh”，找到如下一行：

export JAVA_HOME=${JAVA_HOME}

将这行内容修改为：

export JAVA_HOME=/usr/local/jdk1.7.0_79/

(3) 指定HDFS主节点

编辑文件“/usr/cstor/hadoop/etc/hadoop/core-site.xml”，将如下内容嵌入此文件里最后两行的<configuration></configuration>标签之间：

<name>hadoop.tmp.dir</name>

<value>/usr/cstor/hadoop/cloud</value>

</property>

<name>fs.defaultFS</name>

<value>hdfs：//master：8020</value>

</property>

(4) 在master服务器上格式化主节点：

[root@master ~]# hdfs namenode -format

统一启动HDFS：

[root@master ~]#cd /usr/cstor/hadoop

[root@master hadoop]# sbin/start-dfs.sh

(5) 通过查看进程的方式验证HDFS启动成功

[root@master sbin]# jps #jps查看java进程

若启动成功，会看到类似的如下信息：

6208 NameNode

6862 Jps

6462 SecondaryNameNode

图3-1 Hadoop启动成功效果图

(1) 在master上操作：确定存在spark。

[root@master ~]# ls /usr/cstor

spark/

[root@master ~]#

在master机上操作：进入/usr/cstor目录中。

[root@master ~]# cd /usr/cstor

[root@master cstor]#

进入配置文件目录/usr/cstor/spark/conf，先拷贝并修改slave.templae为slave。

[root@master ~]# cd /usr/cstor/spark/conf

[root@master cstor]# cp slaves.template slaves

(2) 在spark-conf.sh中加入JAVA_HOME。

[root@master cstor]# vim /usr/cstor/spark/sbin/spark-config.sh

加入以下内容

export JAVA_HOME=/usr/local/jdk1.7.0_79

(3) 启动Spark集群。

[root@master local]# /usr/cstor/spark/sbin/start-all.sh

图3-2 Spark启动成功效果图

首先创建了一个SparkSession，并加载包含用户ID、新闻ID和评分的数据集。然后将数据集划分为训练集和测试集，使用ALS算法构建推荐模型，并对测试集进行预测。最后，通过评估器计算模型的均方根误差（RMSE），并为每个用户生成前N个推荐新闻。

表3-2 基于协同过滤的新闻推荐系统代码

from pyspark.sql import SparkSessionfrom pyspark.ml.evaluation import RegressionEvaluatorfrom pyspark.ml.recommendation import ALSfrom pyspark.sql import Row

# 创建SparkSession

spark = SparkSession.builder.appName("NewsRecommendation").getOrCreate()

# 加载数据集，这里假设数据集包含三列：用户ID、新闻ID、评分

data = spark.read.csv("news_ratings.csv", header=True, inferSchema=True)

# 将数据集划分为训练集和测试集

(training, test) = data.randomSplit([0.8, 0.2])

# 使用ALS算法构建推荐模型

als = ALS(maxIter=5, regParam=0.01, userCol="userID", itemCol="newsID", ratingCol="rating",

coldStartStrategy="drop")

model = als.fit(training)

# 对测试集进行预测

predictions = model.transform(test)

# 评估模型

evaluator = RegressionEvaluator(metricName="rmse", labelCol="rating", predictionCol="prediction")

rmse = evaluator.evaluate(predictions)print("Root-mean-square error = " + str(rmse))

# 为每个用户生成前N个推荐新闻

userRecs = model.recommendForAllUsers(N)

userRecs.show()

# 停止SparkSession

spark.stop()

4 后台系统实现

基于大数据的新闻信息分析平台的基本业务功能是采用Django框架实现的，在本文的第四章将详细介绍后台系统的实现部分，包括详细阐述了系统功能模块的具体实现，并展示说明了部分模块的功能界面。

4.1 开发环境与配置

4.1.1 开发环境

本系统设计基于B/S架构，其中服务器包括应用服务器和数据库服务器。这种架构模式，使用户只需要在有网络的地方即可通过浏览器访问，而不需要再安装客户端软件，交互性更强。基于大数据的新闻信息分析平台使用Pycharm集成开发工具。而系统运行配置时，选择应用本地来部署Web服务器来保障平台的正常运行。本系统的主要开发环境以及开发工具如表4-1所示。

表4-1 系统开发环境和工具

项目	系统环境及版本
硬件环境	Windows 64 位操作系统
Python	Python2.6
数据库	MySql
开发工具	Pycharm
项目架构	Django

4.1.2 框架配置介绍

本系统使用集成开发工具Pycharm进行开发，由于 IDEA 中本地配置详细资料有很多，不做详细赘述，本文主要介绍 Django框架的配置。首先需要在项目中中引入各框架以及数据库连接等所需要工具包。

4.2 数据库的设计

数据库设计是系统设计中特别重要的一部分。数据库的好坏决定着整个系统的好坏，并且，在之后对数据库的系统维护、更新等功能中，数据库的设计对整个程序有着很大的影响。

根据功能模块的划分结果可知，本系统的用户由于使用账号和密码进行登录，因此在本系统中需要分别进行数据记录。首先根据如下6个数据实体:用户、新闻信息等数据库表。

图4-1新闻实体属性图

用户的属性包括用户编号、用户名、密码和性别、注册账号的时间。用户实体属性图如图4-2所示：

图4-2 用户实体属性图

根据以上分析，各个实体之间有一定的关系，使实体与实体可以联系起来，建立成整个系统的逻辑结构，本系统中，普通用户通过对新闻信息的管理，使新闻信息与用户实体存在对应关系。

4.3 系统功能模块实现

4.3.1登录认证

用户登录时需要在登录界面输入用户名、密码进行身份认证，要求必须是表单认证、校验。具体流程如时序图如4-2所示。

图4-2登录认证流程图

新闻信息大数据分析系统的用户登录界面如下图所4-3所示：

图4-3用户登录注册界面

登陆成功后，系统会成功跳转至首页，在首页中，位于上方的横栏是对本系统的基本信息的描述和欢迎登录效果，另外登录用户的用户名也会显示在首页中，可直接表明用户己成功登录。左侧则是本系统的导航菜单，可折叠展示，较为方便，右方则为欢迎页效果。新闻信息大数据分析系统的首页界面如下图所4-4所示:

图4-4 新闻信息大数据系统首页界面

4.3.2新闻信息管理功能

新闻信息管理功能是对新闻信息进行查询，删除等操作的功能集合，新闻信

息管理功能使用到了新闻信息表t_ car，新闻信息表t_car的主要数据字段，结构，类型及描述如下表4-2所示。

表4-2 新闻信息表字段

字段名称	数据类型	是否允许为空	描述
id	int	不允许	自增主键，唯一ID
cityname	String	允许	所在城市名称
company	String	允许	新闻名称
company_size	String	允许	新闻规模
education	String	允许	价格
experience	String	允许	年限
industry	String	允许	售卖年份
recruiter	String	允许	分类名
salary	String	允许	价格范围

新闻信息大数据分析系统的新闻信息管理功能界面如下图所4-5所示:

图4-5新闻信息后台管理界面

新闻信息管理

功能流程功能图如图3-6所示：

图4-6 新闻信息管理功能流程图

通过“新闻信息管理”按钮，进入新闻信息管理界面，用户可以看到新闻信息列表，例如：新闻名称、所在城市、数量、新闻要求、薪资待遇、新闻时间的详细信息。通过此界面，用户可以对新闻信息进行删除管理操作。

4.3.3新闻信息大数据看板功能

数据分析推荐模块就是对我们采集和计算的分析结果的展示。数据分析模块的

数据进行一个精美而又直接的展示，我们采用大屏的方式进行展示，展示数据结

构分明，背景具有科技感，把相对复杂的、抽象的数据通过可视的、交互的方式

进行展示，从而形象直观地表达数据蕴含的信息和规律。新闻信息大数据看板界面如图4-7所示。

图4-7新闻信息分析推荐界面

新闻信息大数据分析分析推荐开发的难点并不在于图表类型的多样化，而在于如何能在简单的一页之内让用户读懂新闻数据之间的层次与关联，协同过滤在新闻分析推荐模型有有更高的选择性，同时模型也有更高的鲁棒性，相对于需要大量样本、大量调参的其他协同过滤，使用推荐系统网络训练迭代次数较少、误差率更低，在基新闻文本分类中具有一定的优势。

4.4 本章小结

本章主要分析了基于大数据的新闻信息分析系统开发过程中使用到的技术和具体的实现步骤，这其中主要介绍了基于Django框架的新闻信息大数据分析系统的搭建环境和开发步骤，包括程序中的一些数据库配置等。

5 总结与展望

5.1 系统开发遇到的问题

由于基于大数据新闻信息分析平台是由本人独立开发，因此在系统设计和业务逻辑方面更多地借鉴了目前市场上较为流行的框架和技术点，包括大数据技术，很多是不熟悉没接触过的，在开发过程中不断学习新知识。另外由于本人的时间和精力的原因，在系统开发过程中有很多地方可能并不能够完全尽如人意，还有许多需要补充的功能与模块。

5.2 总结与展望

大数据新闻信息系统是在对相关管理范畴进行详细调研后，确定了系统涉及的领域，包括数据库设计、界面设计等，是一个具有实际应用意义的管理系统。根据本毕业设计要求，经过四个多月的设计与开发，大数据新闻信息系统基本开发完毕。其功能基本符合用户的需求。
为保证有足够的技术能力去开发本系统，首先本人对开发过程中所用到的工

具和技术进行了认真地学习和研究，详细地钻研了基于Python的网络爬虫技术

以及Echarts, CSS, HTML等前端开发技术，同时还研究推荐系统算法等。

从新闻数据大数据分析平台需求分析开始，到整体框架的设计以及各个详细功能的设计具体实现，最后基于大数据平台的新闻信息分析系统的基础架构和详细功能已经大致开发完毕，并将其部署在本地服务器当中运行，用户可以登录使用该系统进行新闻信息的筛选，同时查询大数据的分析结果。

参考文献

[1]季杰,陈强仁,朱东.基于互联网大数据的新闻智能分析平台的设计和实现[J].内江科技,2020,41(05):47-48.

[2]朱慧雯,田骏,张涛,蒋卫祥.基于互联网大数据的新闻数据智能分析平台的设计与实现[J].软件,2020,41(03):99-101.

[3]于涛.大尹格庄金矿井下通风环境感知与大数据分析平台研究开发[J].有色金属(矿山部分),2021,73(05):142-146.

[4]汪杰,王春华,李晓华,余克莉莎.煤炭行业大数据分析云平台设计研究[J].煤炭工程,2021,53(09):187-192.

[5]周怡燕.基于大数据的数据分析平台构建研究[J].自动化与仪器仪表,2021(05):123-127.

[6]邱灵峰,黄荣.大数据审计平台体系建设构想[J].中国管理信息化,2021,24(17):97-98.

邓宇杰,郑和震,陈英健.长江大保护时空大数据云平台建设需求分析[J].水利规划与设计,2021(09):12-15.

[7]孙也.生产制造新闻大数据分析平台技术[J].电子技术与软件工程,2021(16):178-179.

张晓伟.基于云平台的大数据信息安全保护策略分析[J].信息记录材料,2021,22(08):185-187.

[8]李军,王涛.基于大数据分析技术的网络运维平台应用与开发[J].电脑编程技巧与维护,2021(07):112-114.

[9]Chi Dianwei,Tang Chunhua,Yin Chen. Design and Implementation of Hotel Big Data Analysis Platform Based on 推荐系统算法 and Spark[J]. Journal of Physics: Conference Series,2021,2010(1):

[10]Costa Rogério Luís de C.,Moreira José,Pintor Paulo,dos Santos Veronica,Lifschitz Sérgio. A Survey on Data-driven Performance Tuning for Big Data Analytics Platforms[J]. Big Data Research,2021,25(prepublish):

Research and Implementation of a News Classification System Based on 推荐系统

Abstract:

Currently, there are many websites or apps in China that publish news information, and the information published by existing news websites is mixed with a large amount of useless news information. This makes it difficult for news readers to distinguish effective information when using these news software to obtain news information, and the efficiency of reading news will be very low. If a web system is developed to store, calculate, and intelligently analyze news information on the market through big data technology, it will provide huge benefits to news readers.

This article designs a news website backend analysis system based on big data. The core function of this system is to crawl the raw data of massive news information in Zhongguancun, store and calculate the raw data through big data technology, and display the analysis results in the form of classified prediction lists.

The main research work and achievements of this paper are as follows:

1. We have designed and successfully developed a news data analysis backend software system based on 推荐系统 algorithm using software development techniques such as Django. The news information data of this backend system comes from the news information crawled from the Zhongguancun website on the news website.

2. Web crawler based on Python language crawled the news information on the news website. After cleaning the raw data crawled, it is stored on the computer. Then, convolutional neural network models and 推荐系统 algorithms are used to calculate the data, and the results are saved and analyzed in MySQL.

Key words: news data; Django； Python；推荐系统

谢辞

时光飞逝，四年的本科生生涯即将结束。在这四年的时光里，有遇到难题时的手足无措，有获得专业进步时的开心。经历了许多的事情，自己也在不知不觉中成长了很多，心中充盈最多的仍是感激。

首先感谢我的导师,她严谨的治学态度深深地影响每位同学。我要感谢我的父母，他们总是默默的付出，在生活上给与我最大的帮助，在学习上也给我很多建议。

最后，由衷的感谢各位评审老师在百忙之中抽出时间来参与我的论文评审和答辨。