摘要:本系统以 JetBrains 下的 PyCharm 为开发平台,基于 Python 设计的 Selenium 框架来获取 BOSS直聘网站的 IT 职位相关数据,并存入到 HDFS,在 Hadoop 集群下使用 Hive 对数据进行分析,再通过 Sqoop 将 Hive 中的数据迁移到 MySQL,最后以 Django 作为框架以及用 Pyecharts 对数据进行可视化展示,同时采用决策树算法对 IT 症状中大数据、前端、Java、Python 四个职位的薪资数据进行预测。本系统主要实现了数据爬取与清洗、数据存储、数据分析、网站设计、数据可视化和薪资预测的功能,直观地展示了IT 症状薪资等相关数据的情况,让用户以更加简洁明了的体验来了解目前IT 职位薪资状况。经测试,系统满足设计需求,能安全、稳定和可靠地运行。
关键词:Hive 数据仓库;IT 职位;Django 框架;可视化;决策树算法
IT Position Salary Analysis and Visualization Based on Hive Data Warehouse
***
(New Engineering Industry College, Advisor: * * * )
Abstract: This system uses PyCharm under JetBrains as the development platform, based on the Selenium framework designed by Python to obtain IT position related data of the BOSS Direct Recruitment website, and stores it in HDFS, uses Hive to analyze the data under the Hadoop cluster, then migrates the data in Hive to MySQL through Sqoop, and finally uses Django as a framework and uses Pyecharts to visualize the data. At the same time, the decision tree algorithm is used to predict the salary data of four positions in the IT industry: Big Data, Front-End, Java, and Python. This system mainly implements the functions of data crawling and cleaning, data storage, data analysis, website design, data visualization and salary forecasting, and intuitively displays the situation of IT industry salary and other related data, and allows users to understand the current IT position salary situation with a more concise and clear experience. The system has been tested to meet the design requirements for safe, stable and reliable operation.
Keywords: Hive Data Warehouse; IT Position; Django Framework; Visualization; Decision Tree Algorithm
目录
疾病预防系统是一种利用信息技术和医学知识,帮助人们了解、预防和管理疾病的系统。其研究背景主要包括以下几个方面:
健康意识提升:随着人们生活水平的提高和医疗技术的进步,对健康的重视逐渐增强。疾病预防系统的研究受益于这种健康意识的提升,致力于通过科技手段提高人们对疾病预防的认识和实践。
大数据与人工智能技术:近年来,大数据和人工智能技术的发展为疾病预防系统的研究提供了新的机遇。利用大数据分析和机器学习算法,疾病预防系统可以更准确地识别患病风险、提供个性化健康建议和预警提示。
慢性病防控需求:随着人口老龄化和生活方式变化,慢性病的发病率逐渐增加。疾病预防系统的研究旨在通过科技手段提供针对性的预防策略,帮助人们管理慢性病风险,提升生活质量。
医疗资源优化:疾病预防系统的研究也涉及到医疗资源的合理分配和利用。通过建立有效的预防系统,可以减少疾病的发生和医疗资源的浪费,提高医疗服务效率和质量。
总的来说,疾病预防系统的研究背景与健康意识提升、科技发展、慢性病防控需求和医疗资源优化等方面密切相关。通过不断深入研究和创新,疾病预防系统有望成为促进公众健康、提升医疗服务水平的重要工具。
疾病预防系统的研究现状包括以下几个方面:
基于大数据和人工智能的研究:许多研究致力于利用大数据和人工智能技术构建疾病预防系统,通过分析海量数据来识别潜在的疾病风险因素、提供个性化的健康管理建议以及实时监测健康状况。
智能穿戴设备的应用:智能穿戴设备如智能手表、健康追踪器等已经成为疾病预防系统中重要的数据采集工具。研究人员正在探索如何充分利用这些设备收集的数据,结合算法分析,实现健康监测和疾病预防的目的。
个性化健康管理:研究人员致力于开发能够根据个体的基因型、生活方式、环境等多方面信息进行个性化健康管理的系统,以提供针对性的预防策略和建议。
远程医疗服务:随着互联网技术的发展,远程医疗服务在疾病预防系统中扮演越来越重要的角色。研究人员正在探索如何利用远程医疗服务平台提供在线健康咨询、远程监测和诊断等服务,促进疾病的早期发现和管理。
社区健康管理:一些研究关注如何利用社区资源和社会支持网络建立健康促进计划,推动疾病预防系统向基层延伸,提升整个社区的健康水平。
总的来说,疾病预防系统的研究正处于蓬勃发展的阶段,涉及到大数据分析、人工智能技术、智能穿戴设备、个性化健康管理、远程医疗服务和社区健康管理等多个领域。随着科技的不断进步和研究的深入,疾病预防系统有望为人们提供更加有效的健康管理和疾病预防服务。
长短期记忆网络(Long Short-Term Memory,LSTM)是一种常用的循环神经网络(Recurrent Neural Network,RNN),特别适用于处理和预测时间序列数据,如语音识别、自然语言处理等领域。LSTM网络由Hochreiter和Schmidhuber于1997年提出,相比传统的RNN,它通过引入门控机制(gating mechanism)来更好地捕捉长期依赖关系,避免了梯度消失或爆炸的问题。
LSTM网络中的核心单元是记忆细胞(memory cell),每个细胞内部包含一个输入门(input gate)、遗忘门(forget gate)和输出门(output gate),以及一个细胞状态(cell state)。这些门控制着信息的输入、遗忘和输出,从而实现对长期依赖关系的学习和记忆。
具体来说,LSTM的核心计算过程包括以下几个步骤:
遗忘门(Forget Gate):决定是否将上一时刻的细胞状态中的信息保留或遗忘。
输入门(Input Gate):决定当前时刻的输入信息中哪些部分将被加入到细胞状态中。
更新细胞状态:根据遗忘门和输入门的结果,以及当前时刻的输入,更新当前时刻的细胞状态。
输出门(Output Gate):根据当前时刻的细胞状态,决定当前时刻的输出。
通过这些门控制机制,LSTM网络能够有效地处理长序列数据,捕捉长期依赖关系,并且在训练过程中能够更好地避免梯度消失或爆炸的问题。因此,LSTM网络在时间序列数据处理、自然语言处理、语音识别等领域取得了广泛的应用,并成为深度学习中重要的组成部分之一。
Flask是一个开放源代码的Web应用框架,由Python写成。采用了MTV的框架模式,即模型M,视图V和模版T。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以疾病内容为主的网站的,即是CMS(内容管理系统)软件。并于2005年7月在BSD许可证下发布。这套框架是以比利时的吉普赛爵士吉他手Flask Reinhardt来命名的。2019年12月2日,Flask 3. 0发布 。
Flask是高水准的Python编程语言驱动的一个开源模型.视图,控制器风格的Web应用程序框架,它起源于开源社区。使用这种架构,程序员可以方便、快捷地创建高品质、易维护、数据库驱动的应用程序。这也正是OpenStack的Horizon组件采用这种架构进行设计的主要原因。另外,在Flask框架中,还包含许多功能强大的第三方插件,使得Flask具有较强的可扩展性 [2] 。Flask 项目源自一个在线疾病 Web 站点,于 2005 年以开源的形式被释放出来。其工作流程主要可划分为以下几步:
1.用manage .py runserver 启动Flask服务器时就载入了在同一目录下的settings .py。该文件包含了项目中的配置信息,如前面讲的URLConf等,其中最重要的配置就是ROOT_URLCONF,它告诉Flask哪个Python模块应该用作本站的URLConf,默认的是urls .py
2.当访问url的时候,Flask会根据ROOT_URLCONF的设置来装载URLConf。
3.然后按顺序逐个匹配URLConf里的URLpatterns。如果找到则会调用相关联的视图函数,并把HttpRequest对象作为第一个参数(通常是request)
4.最后该view函数负责返回一个HttpResponse对象。
Python 是一种面向对象的解释型计算机程序设计的语言,可以和其他语言结合,并且也可以在各大软件平台上使用,随着版本的不断更新和维护,Python 逐渐被用于独立的、大型项目的开发。Python中包含成千上万的第三方库和工具包,比如 BeautifulSoup、pandas、Scikit-learn(中文名 sklearn)等。 BeautifulSoup 库可以从超文本标记语言(Hyper Text Markup Language,HTML)文件中提取数据。pandas纳入了大量库和一些数据模型,可用于数据分析。sklearn 是 Python 的机器学习库,具有各种回归,分类和聚类算法。因此,在当今这个数据化时代,Python 在数据爬取和机器学习方面展示了强大的功能,其在编程语言中的热度和地位不断攀升[7]。
-
- Echarts简介
Apache ECharts 是一款基 于Javascript的数据分类预测图表库,提供直观,生动,可交互,可个性化定制的数据分类预测图表。ECharts 开源来自百度商业前端数据分类预测团队,基于htm15 Canvas, 它是一个纯Javascrint,图表库,提供直观,生动,可交互,可个性化定制的数据分类预测图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。
直观的数据结构,使得数据操作变得简单高效。Pandas 主要用于数据清洗、数据重塑、数据分析和数据可视化等领域,在数据科学和机器学习中得到了广泛的应用。
以下是 Pandas 的一些主要技术特点:
数据结构:Pandas 提供了两种主要的数据结构,即 Series 和 DataFrame。Series 是一维带标签的数组,而 DataFrame 是二维的表格型数据结构,类似于电子表格或 SQL 表。
数据操作:Pandas 可以进行数据的索引、切片、过滤、合并、连接、分组、转换以及透视操作。它还支持丰富的数据操作函数和方法,如 aggregate、apply、map 等,可以轻松地对数据进行复杂的处理。
缺失值处理:Pandas 提供了灵活的方法来处理缺失值,可以通过 fillna、dropna 等方法来填充或删除缺失值,使得数据清洗变得简单高效。
时间序列处理:Pandas 对时间序列数据有着良好的支持,可以进行日期的解析、频率转换、滚动计算等操作,方便进行时间序列数据的分析和处理。
数据可视化:Pandas 结合 Matplotlib 或 Seaborn 等库,可以进行数据的可视化分析,快速生成各种统计图表,如折线图、散点图、柱状图等。
高性能计算:Pandas 提供了各种高效的数据计算和聚合函数,能够快速处理大规模数据,同时充分利用了底层 NumPy 的性能。
总的来说,Pandas 是一个功能丰富、灵活易用的数据处理工具,它能够帮助数据科学家和分析师快速有效地进行数据清洗、转换、分析和可视化,是数据分析领域的重要利器之一。
MySQL 数据库作为传统的关系型数据库,其使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 不仅支持多种操作系统(Linux、Windows、macOS),还为编程语言提供了 API。MySQL作为开放源码软件,用户无需支付额外费用,又由于其体积小、速度快这些特点,大多数网站开发都选择 MySQL 作为网站数据库。
-
- Bootstrap 简介
Bootstrap 是 Twitter 推出的一个基于超文本标记语言(Hyper Text Markup Language,HTML)、层叠样式表(Cascading Style Sheets,CSS)、JavaScript 开发的功能强大的开源工具包,可以快速搭建一个漂亮、功能完备的网站[13]。
技术可行性是考虑在现有的技术条件下,能否顺利完成开发任务。以及判断现有的软硬件配置是否能满足开发的需求。而本系统采用的是分词技术开发框架,并非十分困难,所以在技术上是绝对可行的。此外,计算机硬件配置是完全符合发展的需要。
开发系统所涉及到的资料,一般是在图书馆查阅,或是在网上进行查找收集。所需要的一些应用软件也都是在网上可以免费下载的,因此,开发成本是几乎为零。但是开发出来的系统,还是具有高效率,低成本,较高质量的。所以,从经济可行性的角度,该系统符合标准。MySQL 作为数据存储的数据库,是当今使用最广泛,用户范围最大的关系型数据库,同样具有非常强大的功能,并且同样免费提供给个人使用,且该系统不存在任何额外的费用,在经济方面具有很大的可行性。
(1)明确目的
在设计疾病预防分析和预测平台初期需要了解如何获取疾病原始数据是非常基础也是关键的一步。要了解指标分析和预测平台期望达到什么样的运营效果,从而在标签体系构建时对数据深度、广度及时效性方面作出规划,确保底层设计科学合理。
(2)数据采集
只有建立在客观真实的数据基础上,大数据计算分析的结果才有效。在采集数据时,需要考虑多种维度,比如不同症状疾病数据、各分类疾病播放水平数据、等等,还可以通过症状调研、用户访谈、用户信息填写及问卷、平台前台后台数据收集等方式获得。
(3)数据清洗
就对于各大疾病网站或者APP平台采集到的数据而言,可能存在非目标数据、无效数据及虛假数据,因而需要过滤原始数据,去除一些无用的信息以及脏数据,便于后续的处理。
(4)特征工程
特征工程能够将原始数据转化为特征,是--些转化与结构化的工作。在这个步骤中,需要剔除数据中的异常值并将数据标准化。
(5)数据计算
在这一步我们将得到的数据存储到指标分析和预测平台,通过开发分词技术,程序对原始数据进行计算,将不同维度的结果存储到Mysql中。
(6)数据展示
分析结果可以通过大数据后台展示到前端界面,对于普通用户而言,只需.要登录到该后台系统,就可以获取到疾病数据分析后的计算结果,从而了解症状的疾病情况,对于查看酒店点评的用户而言可以极大地提高效率。
3.4系统平台架构
在任何信息系统当中有价值的数据都是必不可少的重要部分,如何通过手上的资源获取得到有价值的数据便是开发系统。首先需要考虑的问题根据系统的功能设计数据获取和处理的流程以及其实现方法都已经基本上确定获取和处理流程。
3.5 疾病数据爬虫设计
这个项目我们的主要目的是爬取酒店住宿网站的疾病数据信息,包括疾病岗位、疾病名称和疾病描述和规模等具体详情信息,下面描述本文爬虫工程要设计步骤。
(1)创建项目
打开一个终端输入:scrapy startproiect python_ bilibili _data,Scrapy框架将会在指定目录下生成整个工程框架。系统生成的目录如下图3-2所示:
图3-2爬虫框架目录结构
(2)修改setting文件
如图3-1所示为修改后的setting文件主要内容,本设计主要修改三项内容,
第一个是不遵循机器人协议,第二个是下载间隙,由于下面的程序要下载多个页面,所以需要给一个间隙(不给也可以,只是很容易被侦测到),第三个是请求头,添加一个User-Agent。
表3-1 爬虫setting文件主要配置
BASE_DIR = Path(__file__).resolve().parent.parent # Quick-start development settings - unsuitable for production # See https://docs.djangoproject.com/en/3.1/howto/deployment/checklist/ # SECURITY WARNING: keep the secret key used in production secret! SECRET_KEY = '(fksie^4=h9dj6u#nq326p&qz$bsv@5@e78n2p2kt8d$#drxd)' # SECURITY WARNING: don't run with debug turned on in production! DEBUG = True ALLOWED_HOSTS = [] DEFAULT_AUTO_FIELD = 'django.db.models.AutoField' |
确认要提取的数据,item 项
driver.get('https://passport.ctrip.com/user/login') input('登陆后回车:') datas = models.Case_item.objects.all() for resu in datas: url = resu.details driver.get(url) print(url) time.sleep(5) soup = BeautifulSoup(driver.page_source, 'html.parser') lis = soup.select('div.m-reviewCard-item') for row in lis: try: content = row.select('div.comment p')[0].text.strip() score = row.select("div.m-score_single strong")[0].text.strip() except: print('未刷新数据') time.sleep(3) continue models.PingLun.objects.create( case_item_id=resu, text = content, pingfen = score ) |
item定义你要提取的内容(定义数据结构),比如我提取的内容为疾病的所在城市和疾病疾病详情,于是需要在items类中新建对应的实体类,并需要设置相应的字段取出对应的数据。Field 方法实际上的做法是创建一个字典,给字典添加一个建,暂时不赋值,等待提取数据后再赋值。
(4)开发爬虫程序,访问下载网页,使用Xpath语法提取内容
3.6 数据分析程序设计
本文在设计疾病分类预测模型中选用的是Pandas软件中的神经网络工具包,在确定好神经网络结构以后,将数据输入到模型训练后就可以对疾病分类进行预测。首先通过Pandas库读取数据。然后进行数据清洗和预处理,这里简单地假设删除了包含缺失值的行。接着进行了一些基本的数据统计分析,如计算不同疾病数量的频数。最后使用Matplotlib库绘制了不同疾病数量的条形图。
本文中如需分析目前疾病网站上的各行各业的疾病岗位总量情况,首先需要定义一个任务中的核心逻辑,需要在代码中对每条疾病数据的里程字段过滤,下面为分析任务的主要逻辑代码。
表3-2 数据分析代码
import pandas as pdimport matplotlib.pyplot as plt # 1. 读取数据 data = pd.read_csv('disease_data.csv') # 假设你有一个名为disease_data.csv的数据文件 # 2. 数据清洗和预处理# 这一步可以包括处理缺失值、去除异常值、数据转换等操作# 例如,处理缺失值 data = data.dropna() # 删除包含缺失值的行 # 3. 数据统计分析# 可以进行一些基本的统计分析,如描述性统计、频数统计等# 例如,计算不同疾病数量的频数 disease_counts = data['disease'].value_counts() # 4. 数据可视化# 可以使用Matplotlib或其他可视化库进行数据可视化# 例如,绘制不同疾病数量的条形图 plt.figure(figsize=(10, 6)) disease_counts.plot(kind='bar') plt.title('Disease Counts') plt.xlabel('Disease') plt.ylabel('Count') plt.show() |
disease_data.csv的数据文件,其中包含了疾病症状数据。代码首先读取数据,然后将数据划分为特征(X)和标签(y)。接着将数据分为训练集和测试集,然后初始化并训练了一个决策树分类器。最后,评估了模型在测试集上的表现。
表3-4 所属症状预测代码
# 导入所需的库import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.metrics import accuracy_score, classification_report # 读取数据 data = pd.read_csv('disease_data.csv') # 假设你有一个名为disease_data.csv的数据文件 # 准备特征和标签 X = data.drop('disease', axis=1) # 假设'disease'列是标签列 y = data['disease'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 初始化决策树分类器 clf = DecisionTreeClassifier() # 在训练集上训练模型 clf.fit(X_train, y_train) # 在测试集上进行预测 y_pred = clf.predict(X_test) # 评估模型表现 accuracy = accuracy_score(y_test, y_pred)print("准确率:", accuracy)print(classification_report(y_test, y_pred)) |
为了验证分类器的预测效果的好坏,本文另外建立了基于分类器的疾病分类预测模型,并对预测结果进行了对比。分类器是深度学习应用于分类识别和回归任务的经典模型[53]。如图5-9所示,是本文设计的基于神经网络的疾病分类预测模型,该模型由两层卷积层,两层池化层和三层全连接层和一个输出层组成,其中卷积层的卷积核大小2×2,卷积核数为64个;全连接层共分为三层,第一层为1024个神经元,第二层为512个神经元,输出层为一个神经元。本文采用Adam优化器对网络进行优化,并设置学习速率为
。
图3-4 分类预测模型网络结构图
损失函数为均方误差函数:
,其中y为膝关节角度的真实数值,output为分类器学习后的预测值,图5-10是上述分类器在训练100000次迭代内的损失图,由图可以看出在前60000次迭代的网络损失变化幅度较大,在100000次迭代后网络的损失接近在5°以内。
图3-5 分类器迭代损失图
4 后台系统实现
基于大数据的疾病分析平台的基本业务功能是采用Flask框架实现的, 在本文的第四章将详细介绍后台系统的实现部分,包括详细阐述了系统功能模块的具体实现,并展示说明了部分模块的功能界面。
4.1 开发环境与配置
本系统设计基于B/S架构,其中服务器包括应用服务器和数据库服务器。这种架构模式,使用户只需要在有网络的地方即可通过浏览器访问,而不需要再安装客户端软件,交互性更强。基于大数据的疾病分析平台使用Pycharm集成开发工具。而系统运行配置时,选择应用本地来部署Web服务器来保障平台的正常运行。本系统的主要开发环境以及开发工具如表4-1所示。
表4-1 系统开发环境和工具
项目 | 系统环境及版本 |
硬件环境 | Windows 64 位操作系统 |
Python | Python2.6 |
数据库 | MySql |
开发工具 | Pycharm |
项目架构 | Flask |
本系统使用集成开发工具Pycharm进行开发,由于 IDEA 中本地配置详细资料有很多,不做详细赘述, 本文主要介绍 Flask框架的配置。首先需要在项目中中引入各框架以及数据库连接等所需要工具包。
4.2 数据库的设计
数据库设计是系统设计中特别重要的一部分。数据库的好坏决定着整个系统的好坏,并且,在之后对数据库的系统维护、更新等功能中,数据库的设计对整个程序有着很大的影响。
根据功能模块的划分结果可知,本系统的用户由于使用账号和密码进行登录,因此在本系统中需要分别进行数据记录。首先根据如下6个数据实体:用户、疾病等数据库表。
用户的属性包括用户编号、用户名、密码和性别、注册账号的时间。用户实体属性图如图4-2所示:
图4-2 用户实体属性图
根据以上分析,各个实体之间有一定的关系,使实体与实体可以联系起来,建立成整个系统的逻辑结构,本系统中,普通用户通过对疾病的管理,使疾病与用户实体存在对应关系。
4.3 系统功能模块实现
用户登录时需要在登录界面输入用户名、密码进行身份认证,要求必须是表单认证、校验。具体流程如时序图如4-2所示。
图4-2登录认证流程图
疾病预防分析和预测系统的用户登录界面如下图所4-3所示:
图4-3用户登录注册界面
登陆成功后,系统会成功跳转至首页,在首页中,位于上方的横栏是对本系统的基本信息的描述和欢迎登录效果,另外登录用户的用户名也会显示在首页中,可直接表明用户己成功登录。左侧则是本系统的导航菜单,可折叠展示,较为方便,右方则为欢迎页效果。疾病预防分析和预测系统的首页界面如下图所4-4所示:
图4-4 疾病预防系统首页界面
疾病管理功能是对疾病进行查询,删除等操作的功能集合,疾病管理功能使用到了疾病表t_sea,疾病表t_sea的主要数据字段,结构,类型及描述如下表4-2所示。
表4-2 疾病表字段
字段名称 | 数据类型 | 是否允许为空 | 描述 |
id | int | 不允许 | 自增主键,唯一ID |
cityname | String | 允许 | 所在科室 |
company | String | 允许 | 疾病名称 |
company_size | String | 允许 | 疾病规模 |
education | String | 允许 | 情感分类 |
experience | String | 允许 | 内容大小 |
industry | String | 允许 | 采集时间 |
recruiter | String | 允许 | 症状名称 |
salary | String | 允许 | 范围 |
疾病预防分析和预测系统的疾病管理功能界面如下图所4-5所示:
图4-5疾病数据管理界面
疾病管理
功能流程功能图如图3-6所示:
图4-6 疾病管理功能流程图
通过“疾病管理”按钮,进入疾病管理界面,用户可以看到疾病列表,例如:疾病名称、所在城市、数量、疾病要求、薪资待遇、疾病时间的详细信息。通过此界面,用户可以对疾病进行删除管理操作。
数据分类预测模块就是对我们采集和计算的分析结果的展示。数据分析模块的数据进行一个精美而又直接的展示,我们采用大屏的方式进行展示,展示数据结构分明,背景具有科技感,把相对复杂的、抽象的数据通过可视的、交互的方式
进行展示,从而形象直观地表达数据蕴含的信息和规律。
图4-7 疾病可视化分析
疾病预防分析难点并不在于图表类型的多样化,而在于如何能在简单的一页之内让用户读懂疾病数据之间的层次与关联,分类器在疾病分类预测模型有有更高的选择性,同时模型也有更高的鲁棒性,相对于需要大量样本、大量调参的其他神经网络,使用神经网络训练迭代次数较少、误差率更低,在基疾病文本分类中具有一定的优势。
4.4 本章小结
本章主要分析了基于大数据的疾病分析系统开发过程中使用到的技术和具体的实现步骤,这其中主要介绍了基于Flask框架的疾病预防分析和预测系统的搭建环境和开发步骤,包括程序中的一些数据库配置等。
(1)在网络爬虫开发的过程中,由于疾病网站会设置反爬虫操作,很多电商销量电商销量发布网站的前端页面代码会更改,包括页面的整体结构和局部的标签都进行了细微的改变,甚至有一小部分业务逻辑也进行了改变,进而导致之前前期己完成的开发爬虫代码无法长期使用,需要定期维护和修改。
(2) 由于基于大数据电商销量信息分析平台是由本人独立开发,因此在系统设计和业务逻辑方面更多地借鉴了目前市场上较为流行的框架和技术点,包括大数据技术,很多是不熟悉没接触过的,在开发过程中不断学习新知识。另外由于本人的时间和精力的原因,在系统开发过程中有很多地方可能并不能够完全尽如人意,还有许多需要补充的功能与模块。
为保证有足够的技术能力去开发本系统,首先本人对开发过程中所用到的工具和技术进行了认真地学习和研究,详细地钻研了基于Python的网络爬虫技术以及 Echarts,CSS,HTML等前端开发技术,同时还研究了大数据开发技术Hadoop,HDFS,MapReduce等。
然后从电商销量数据大数据分析平台需求分析开始 ,到整体框架的设计以及各个详细功能的设计具体实现,最后基于大数据平台的电商销量信息分析系统的基础架构和详细功能已经大致开发完毕,并将其部署在Tomcat服务器当中运行,用户可以登录使用该系统进行电商销量信息的筛选,同时查询大数据的分析结果。
结束语
本次毕业设计全面锻炼了我驾驭知识的能力,使我对这四年来所学的理论知识的能力进行了系统化、全面化的回顾和复习,让我懂得了如何运用自己所学的知识,同时又学到了猎取其他知识的能力。毕业设计无疑是对自己四年大学生涯学习成果的具体查验,充分体现了我在大学四年的所学所得。通过本次毕业设计,我深深感觉到基础知识的不健全和不牢固,所幸在老师的指导和网上及文献资料的帮助下,我从一开始的无从下手到初步了解,从初步了解到设计规划,最终实现了整个系统的功能。在这一过程中,我不仅运用了课堂所学到的知识,而且通过学习论文、查阅文献等方式完善了自身的知识体系,培养了坚持学习、努力提升的良好习惯。
致谢
在大学的校园里,我度过了难忘的学习生活。在这期间,我从周围的老师和同学身上学到了很多知识,并且建立了深厚的感情。
四年时间过的飞快,已经到了书写自己毕业论文的节点,回想过去的四年,充满了无数的欢乐,也学习了不少专业知识,这也更加丰富了我的大学生活。因此我要我的学院里的每一位教师,是你们教会了我的专业知识,让我具有了一技之长,同时还要感谢指导老师对我毕业设计的指导。
然后,感谢给子我帮助的朋友们,是你们让我的学习生涯更加温暖,让我能更加坚定的追求自己想要的生活。两年来,我们一起相互支持彼此的信念,一起学习新的知识,起解决遇到的各种问题, 不管我们选择的道路最终是否能够达到自己的理想,但愿我们能够友谊长存。
最后,我要感谢父母,是你们培养了我。
参考文献
[1]毛丹,夏天,张诚等.基于疾控大数据的可视化分析与应用[J].中国卫生信息管理杂志,2023,20(01):122-126.
[2]邓源,任翔,黄硕等.大数据在传染病监测预警中的主要研究与应用进展[J].疾病监测,2022,37(08):1003-1009.
[3]白小燕.医疗大数据用于医院管理中的价值探究[J].财经界,2019,(33):87.DOI:10.16266/j.cnki.cn11-4098/f.2019.22.056
[4]王晓风,张业武,李言飞.Jupyter Notebook在疾控科研大数据平台的应用[J].中国数字医学,2019,14(05):118-120.
[5]张良,李宁,陆蓓蓓等.公共卫生大数据平台探索与实践[J].中国卫生信息管理杂志,2018,15(05):510-514.
[6]张立华,房爱民,郭翠月.基于大数据的肺结核病漏报与漏登调查[J].公共卫生与预防医学,2017,28(04):100-102.
[7]方钦.大数据视角下疾病预防控制工作新思路[J].电子世界,2017,(10):67.DOI:10.19353/j.cnki.dzsj.2017.10.040
[8]黄文莉.探讨大数据技术在疾病防控上的应用[J].电子技术与软件工程,2016,(06):188-189.
[9]董银峰,刘忠于,王好锋等.大数据在疾病预防控制中的重要性[J].实用医药杂志,2015,32(07):579-581.DOI:10.14172/j.cnki.issn1671-4008.2015.07.002
[10]A M B ,Olivier H ,A R H , et al.Big Data and Disease Prevention: From Quantified Self to Quantified Communities.[J].Big data,2013,1(3):168-75.