基于数据挖掘的玉米种质资源推荐系统的研究

摘  要

玉米是世界上重要的粮食作物之一,也是我国的主要经济作物之一,对于保障国家粮食安全和农民收入具有重要意义。玉米种质是提高玉米产量和品质的关键环节,也是玉米科学研究的核心内容。玉米种质专家是玉米种质领域的权威人士,他们具有丰富的理论知识和实践经验,能够为玉米种质提供有效的指导和建议。然而,由于玉米种质专家的数量有限,地域分布不均,以及信息传播不畅等原因,导致玉米种质专家的资源利用率低,玉米种质工作的效率和质量受到影响。

为了解决这一课题,本研究提出了一项创新性的方法,基于K-means聚类算法与图计算、遗传算法和加权近邻推荐算法的结合,旨在构建一套玉米种质资源推荐系统。该系统的设计目的是根据综合考虑玉米种质资源的特征和实际需求,为对玉米种质有需求的人员提供最佳的专家推荐服务,以进一步提高玉米种质专家的资源利用效率,并促进玉米种质领域的不断发展。主要研究结论如下:

1、使用卷积神经网络处理异常值、众值填充处理缺失值,将玉米种质资源的数据转化为图数据库的结点和边。

2、将数据导入图数据库中,并运行雅各比迭代方法(Jacobi Iteration)的PageRank算法。PageRank将评估品种的重要性,并给出每个品种的分数,以反映其在图中的地位。

3、使用遗传算法来优化K-means聚类是寻找最佳的簇中心初始化以及K值的设置。结合PageRank分数和优化后的K-means聚类算法,以确保将相似的品种聚合在一起。

4、用户自定义加权或将PageRank计算玉米中属性得分加权。基于PageRank分数和K-means聚类结果,得出更为精确的数据集,为验证优化后数据有效性,使用加权近邻推荐算法来初步推荐与其需求相符的玉米品种。

5、使用狮群优化算法对MLP模型进行优化,并使用优化后的数据集进行验证,得出的推荐结果应当优于本文提出的另一优化算法推荐结果。

6、玉米种质资源推荐系统移动端、WEB端和微信小程序在断网或断电等异常情况解决后仍能正常运行,并且系统安装包支持多款安卓系统手机;

7、玉米种质资源推荐系统Web端主要实现用户上传数据推荐玉米种子详细信息的功能,并支持多个浏览器及其不同版本。

关键词:PageRank 遗传算法 K-means聚类分析 MLP

Abstract

Corn is one of the important food crops in the world, and also one of the main cash crops in China, which is of great significance for ensuring national food security and farmers' income. Maize germplasm is the key link to improve maize yield and quality, and it is also the core content of maize scientific research. Maize germplasm experts are the authorities in the field of maize germplasm, who have rich theoretical knowledge and practical experience, and can provide effective guidance and suggestions for maize germplasm. However, due to the limited number of maize germplasm experts, uneven regional distribution, and poor information dissemination, the resource utilization rate of maize germplasm experts is low, and the efficiency and quality of maize germplasm work are affected.

To address this topic, this study presents an innovative approach based on the combination of K-means clustering algorithm with graph calculation, genetic algorithm and weighted nearest neighbor recommendation algorithm, aiming to construct a recommendation system for maize germplasm resources. The system is designed to provide the best expert recommendation service for those who need maize germplasm by comprehensively considering the characteristics and actual needs of maize germplasm resources, so as to further improve the resource utilization efficiency of maize germplasm experts and promote the continuous development of maize germplasm field. The main study conclusions are summarized as follows:

1. Use the convolutional neural network to handle outlier values and crowd values to fill them with missing values, and transform the data of maize germplasm resources into nodes and edges of the graph database.

2. Import the data into the graph database and run the PageRank algorithm of the Jacoby iterative method (Jacobi Iteration). PageRank The importance of the breed will be assessed and the score of each breed is given to reflect its position in the figure.

3, using a genetic algorithm to optimize K-means clustering is to find the best cluster center initialization as well as the setting of K value. Combining the PageRank-scores and the optimized K-means clustering algorithm, to ensure that similar varieties are pooled together.

4. Users can customize the weight or weight the PageRank to calculate the attribute score in corn. Based on the PageRank-score and K-means clustering results, a more accurate dataset is obtained. In order to verify the validity of the optimized data, the weighted nearest-neighbor recommendation algorithm is used to initially recommend maize varieties consistent with their requirements.

5. The lion-group optimization algorithm is used to optimize the MLP model and verify with the optimized dataset, and the recommendation results should be better than the recommended results of another optimization algorithm proposed in this paper.

6. The mobile terminal, WEB terminal and wechat small programs of the corn germplasm resources recommendation system can still operate normally after the abnormal situations such as network disconnection or power failure are solved, and the system installation package supports a number of Android system mobile phones;

7. The Web terminal of the corn germplasm resource recommendation system mainly realizes the function of users to upload the details of recommended corn seeds, and supports multiple browsers and their different versions.

Key words: PageRank genetic algorithm K-means cluster analysis MLP

目录

摘  要

Abstract

第一章 绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

第二章 技术原理

2.1 灰色关联分析

2.2 K-means聚类

2.3 近邻推荐算法

2.4 遗传算法

2.5 本章小结

第三章 数据集简介

3.1 数据集来源

3.2 数据介绍

3.3 数据集预处理

3.4 异常数据检测模型

3.5本章小结

4基于灰色加权的K-means聚类算法

4.1灰色加权K-means聚类算法设计

4.2 玉米种质资源数据预处理

4.3 灰色加权K-means聚类结果分析

4.4 基于多层感知机(MLP)模型的玉米种质推荐模型

4.5改进MLP的玉米种质推荐模型

第5章 种质资源推荐平台

5.1吉林种质资源平台设计与系统环境

5.2吉林种质资源平台实现

5.2.1 吉林种质资源平台WEB端

5.2.2 吉林种质资源平台APP端与小程序

5.4本章小结

第七章 总结和展望

7.1 结论

7.2 展望

参考文献

作者简介

致谢

第一章 绪论

1.1 研究背景及意义

1.1.1 研究背景

随着人口的增长和经济的发展,粮食安全成为了全球面临的重大挑战之一。玉米是世界上重要的粮食作物之一,也是我国的主要经济作物之一,对于保障国家粮食安全和农民收入具有重要意义[1]。根据联合国粮农组织的统计数据,2022年全球玉米产量为11.48亿吨,占全球粮食总产量的36.4%;我国玉米产量为2.77亿吨,占全球玉米总产量的24.16%,位居世界第二[2]。玉米种质是决定玉米产量和品质的关键因素,也是玉米科学研究的核心内容。玉米种质专家是玉米种质领域的权威人士,他们具有丰富的理论知识和实践经验,能够为玉米种质提供有效的指导和建议[3]。然而,由于玉米种质专家的数量有限,地域分布不均,以及信息传播不畅等原因,导致玉米种质专家的资源利用率低,玉米种质工作的效率和质量受到影响[4]。如何合理地分配和利用玉米种质专家的资源,使得每一个对玉米种质有需求的人都能得到适合自己需求和特征的玉米种质专家的指导和帮助,是一个亟待解决的问题[5]。为了解决这一问题,本文提出了一种基于图计算、遗传算法优化K-means聚类算法和加权近邻推荐算法结合使用的玉米种质专家推荐算法(GAKN)。该算法的目的是根据玉米种质资源的特征和需求,为对玉米种质有需求的人推荐合适的玉米种质,从而提高玉米种质专家的资源利用率,促进玉米种质工作的发展。

玉米种质资源推荐算法的研究对现代农业具有重要的意义。该算法的发展可以加速玉米种质推荐过程,提高农业生产效率。推荐算法有助于更快速、准确地筛选出适应性更强、高产性和抗逆性更好的玉米品种。这不仅有助于应对日益变化的气候条件,还能够提高玉米产量,从而满足不断增长的粮食需求。通过推荐适应性强、抗逆性好的玉米品种,可以降低对化肥、农药等农业生产投入的需求,减少环境污染和土地资源的过度利用。这有助于构建更加生态友好和可持续的农业生产体系,提高农业的资源利用效率,降低生产成本,同时减轻对生态系统的压力。玉米种质资源推荐算法的研究还可以为农民提供智能化的决策支持。通过将推荐算法融入决策支持系统,农民可以更好地了解不同玉米品种的特征和适应性,从而更明智地选择适合其种植区域和需求的品种。这不仅有助于提高农民的决策水平,还可以提升农业生产的整体效益。

本文的主要目的是通过对我国玉米种质资源数据库的数据挖掘,对我国的玉米种质资源进行挖掘。在此基础上,将 K均值聚类与最近邻推荐相结合,建立面向育种专家的玉米种质资源推荐模型。本文提出一种新的基于遗传算法的玉米种质资源预测方法。结果表明,利用聚类方法对玉米资源进行性状分析是一种高效、准确的方法。该方法可以实现对玉米种质资源的快速、高效的采集。在此基础上,利用灰关联分析方法,研究不同品种间的相关性,并利用K-means聚类方法,进一步提高分类精度与速度。在此基础上,结合最近邻推荐算法,建立玉米种质资源推荐模型,为育种工作者提供更为精准、有效的筛选工具,育种工作者就可以更容易地在海量的玉米种质中寻找到自己需要的优良种质。

1.1.2 研究意义

当前,玉米种质面临着一些挑战。首先,我国玉米种植面积不断减少,使得玉米产量呈下降趋势,如何应用种质推荐帮助人们对种质资源信息进行分析,通过分析结果帮助玉米育种专家解决实际问题是一个有待解决的问题。其次,我国玉米种质总体上还存有一定差距,在不同领域呈现出领跑、并跑和跟跑共存的态势[7]。玉米种质推荐算法它通过深度学习和多组学分析,对玉米种质资源进行创新和高效利用。这有助于发掘具有高产、抗逆、抗病、宜机收等特性的优异种质[8]。为玉米的种质创新和种质筛选提供了理论依据和技术支持。我国玉米单产水平目前只有世界先进水平的60%左右,面临利用优良品种选育与应用提高玉米单产的强烈现实需求[9]。此外,目前种质目的不明确、种质技术落后、缺乏种植资源创新能力等问题也制约了玉米种质的进步[10]。

农业种质资源的数量很多,传统的农业种质研究往往只能从海量的种质数据中去挑选符合需求的种质,不仅需要花费大量的时间,而且效率很低,难以综合的对种质的多个性状进行分析,测量数据的准确性也容易受到人为因素的影响[11]。为了获取所需的种质,研究人员需要高精度、低成本和高通量的技术,这就需要计算机科学技术和农业研究相结合,以帮助研究人员解决种质选取的问题[12]。我国是人口众多的玉米生产大国,玉米生产的重要性不言而喻。但是,我国的玉米种植面积在不断减少,导致玉米产量呈现下降的趋势,培育高质高产的玉米品种成为育种工作者的当务之急。面对海量的玉米种质资源数据,如何利用现有的技术和数据对种质资源的信息进行分析,通过分析结果进行种质推荐是一个急需解决的问题[13]。

基于以上这些问题,本文提出了基于图计算、遗传算法优化K-means聚类算法和加权近邻推荐算法的玉米种质资源推荐算法的研究。这种算法能够快速、准确地为农业生产者和决策者提供有价值的信息和建议,从而提高决策效率,节省时间和资源。通过对大量农业数据的深度分析和智能推荐,可以帮助农业生产者和决策者更好地理解和利用农业资源,优化资源配置,提高农业生产的效率和质量[14]。此外,这种算法的应用将推动农业生产的数字化和智能化,有助于实现农业现代化,提高农业竞争力。同时,这种算法的研究和应用将推动相关领域的科研进步,为农业科研提供新的研究方法和工具,促进科研创新[15]。最后,通过为农业生产者和决策者提供有价值的信息和建议,这种算法的应用将有助于解决农业生产中的实际问题,服务社会发展,提高人民生活水平

1.2 国内外研究现状

1.2.1 国外研究现状

(1)关于数据挖掘的研究现状

数据挖掘不仅可以用于农业整体信息的获取,而且可以对农业生产过程进行分析。数据挖掘是一种新型的农业生产管理方法,它可以为农业生产企业提供决策支持。Joel J. P. C.等[24]指出,信息在智慧农业中的地位日益重要。气候条件,土壤,疾病;昆虫、种子、化肥等方面的信息在农业生产中起着举足轻重的作用。随着农业大数据的快速增长,如何有效地对海量数据进行处理与分析,从而得到更加可靠的数据,并对其进行更加精确的预报是十分必要的。数据挖掘技术是智慧农业的一个重要组成部分,它可以有效地处理大量的数据并进行实时的分析。因此,在农业生产中,要通过不断充实我国的种质资源,逐步建立和完善我国的种质资源库。近年来,许多学者开始运用数据挖掘的方法,对农作物种质资源进行了大量的研究。通过对联邦农作物种质资源数据库中的玉米品种资料和 GEMS模式的分析,从联邦农作物种质资源库中选择玉米品种,开展大田试验,对其品质、抗病性、虫害抗性、生长环境等方面的影响进行评价。在此基础上,协助农户选择更适宜的玉米品种。在此基础上,建立基于 LAURA的玉米蚜虫综合防控辅助决策模型,为农户选择适宜的农药品种,为农户选择合适的农药提供科学依据。Tang[32]在分析了国内外有关知识发现系统的典型实例的基础上,以全国农作物种质资源数据库为基础,设计了一套基于数据分析、规则分析与数据挖掘相结合的知识库挖掘系统,并开发了一套操作简便、系统界面简洁直观、数据挖掘结果易于理解的国家种质资源数据库知识库挖掘系统。该集合采用规则前置过滤、后处理过滤和支持度过滤等方法,对规则进行了精简;可信度筛选的四种方式。利用这个知识发现体系,可以对大豆种质资源库进行分析,并对其品质、生育期、抗逆性等方面的关联进行挖掘。

(2)关于推荐模式的研究现状

推荐系统的本质是一种对信息进行筛选、筛选的系统,在海量的信息中,按照特定的运算法则,将用户不想要的项目和信息剔除出去,然后再将所需的项目和信息向用户推荐。从最初的概念被提出到现在,经历了数十年的发展,它逐渐形成了一个完整的独立学科。它不仅在学术研究上获得了卓越的成就,而且被广泛地应用于工业领域。特别是在网络资讯时代。在社交网络环境下,推荐系统已经成为企业进行顾客行为分析的一个重要手段。

1990年代,Palo Alto研究中心发生了“信息超载”,为了解决这个问题,施乐公司研发了一个叫做 Tapestry的邮件系统,它被称为第一个协作过滤推荐系统。与此同时,“推荐系统”这一概念也是由戈德伯格首次提出的。1994年,美国明尼苏达大学的“群”研究团队利用“主动协作过滤”算法,在 Usenet News上首次实现了“合作过滤”,成为国内首个自主协作过滤系统。在此之后,研究小组建立了一种针对推荐问题的形式模型。

Linden et al.利用亚马逊的研究成果,提出了“基于项目的协作过滤算法”,对推荐技术的发展起到了很大的推动作用。2006年,当Netflix宣布,任何一位用户可以将当前推荐算法的精度提高10%,就可以得到100万美元的奖金。2007年,美国召开了首次国际推荐会议,展现了该领域的最新进展与应用。目前,推荐系统的主要功能是在此基础上,提出了一种基于内容的推荐方法,即基于协作过滤的推荐方法,以及混合推荐方法。

(3)玉米种质资源推荐算法的研究现状

在国外研究中,玉米种质资源推荐算法的发展主要涉及遗传算法、机器学习和数据挖掘。利用遗传算法优化多目标函数,机器学习算法如支持向量机和深度学习分析大规模数据,以建立品种与性状之间的关系模型[16]。数据挖掘技术被应用于从庞大的数据中挖掘隐藏关系,以识别潜在的抗性和优越性特征。此外,基因组选择、决策支持系统和远程传感技术也在研究中得到应用,有望加速玉米种质推荐进程。

玉米种质资源推荐算法是一种结合数据挖掘和推荐系统的新颖方法,目前在国内外还没有太多的相关研究[17]。但是,K-means聚类算法常用的数据分析技术,在农业工程与信息技术领域有很多应用,也有很多国外学者进行了探索和创新。K-means聚类算法是一种非监督学习方法,可以将数据集划分为若干个具有相似特征的子集,称为簇[18]。K-means聚类算法在农业领域有很多应用,比如对农产品、农业资源、农业环境等进行分类、评价、优化等。例如,Alsharafat等利用K-means聚类算法对约旦的农业土壤进行分类,将土壤划分为四个类别,并分析了各个类别的物理和化学特性[19]。Kaur等利用K-means聚类算法对印度的作物生产进行分类,将作物划分为五个类别,并分析了各个类别的生产量、面积和收益[20]。Al- Hiary等利用K-means聚类算法和神经网络对约旦的水果质量进行分类,将水果划分为三个类别,并实现了高精度的质量检测[21]。Šimić D评价了不同类胡萝卜素含量之间的关系以及籽粒颜色和硬度与类胡萝卜素含量之间的关系[22],Guoping S通过GWAS后的病例-对照抽样,讨论了等位基因/单倍型效应分析验证其与SCR表型的关联和育种意义[23]。这些算法有望提高玉米种质推荐的效率,为农业生产提供更加可持续和适应气候变化的解决方案。

1.2.2 国内研究现状

(1)数据挖掘的研究现状

在数据挖掘方面,国内的研究者们也致力于从海量的用户数据中挖掘出有价值的信息,以支持更精准的推荐。通过对用户的社交关系、地理位置、时间序列等数据的挖掘,可以更全面地了解用户的偏好和行为习惯,从而为推荐系统提供更丰富的上下文信息。张舒青(2023年)在用户需求与产品创新的研究中,强调了数据挖掘技术在获取、分析用户需求方面的重要性。他认为,有效利用数据挖掘技术可以对网络上用户留下的产品信息展开深入分析,获得潜在的、有意义的用户需求,并指导产品的创新设计。这一观点突显了数据挖掘技术在产品创新领域的广泛应用前景。张加会(2023年)在招聘信息分析与应用的研究中,提出了基于数据挖掘技术的线上招聘信息分析方法。他通过抓取、分析和建模线上招聘信息,为招聘者和求职者提供了快速匹配的帮助。这一研究不仅提高了招聘效率,还展现了数据挖掘技术在人力资源领域的应用潜力。杨玉泽(2023年)在网球比赛技战术分析系统设计与实现的研究中,引入了数据挖掘技术来深入分析比赛数据。他通过改进传统的Apriori算法,提高了数据挖掘的效率,并设计了包括数据收集、预处理和数据挖掘的网球比赛技战术分析系统。这一研究为教练员制定科学的训练计划和临场技战术决策提供了有力的支持。王媛(2023年)在高校大学生行为分析及预测的研究中,运用了多源数据挖掘技术。她通过收集和分析大量学生的成长过程数据,构建了多源异构的教育数据集,并应用先进的机器学习方法进行了学生行为的分析和预测。这一研究不仅提高了高校管理的精准化水平,还为教育决策的科学化提供了有效的对策建议。谢良才(2021年)在煤热转化数据规律分析的研究中,将数据挖掘技术引入到该领域。他基于BP神经网络算法进行了改进和优化,设计了高性能的数据挖掘模型,并应用于煤质基础数据与煤热转化特性之间的关系挖掘中。这一研究为探寻煤热转化领域的内在规律提供了新的思路和方法。

当前国内数据挖掘研究呈现出蓬勃发展的态势,不同领域的学者都在积极探索数据挖掘技术在各自领域的应用潜力和价值。这些研究不仅推动了数据挖掘技术的不断创新和发展,还为相关领域的实践应用提供了有力的支持和指导。

(2)关于推荐模式的研究现状

当前,国内推荐系统的研究现状呈现出蓬勃发展的态势。随着大数据、人工智能等技术的不断进步,推荐系统在电商、社交媒体、音乐、视频等多个领域得到了广泛应用,成为了解决信息过载问题的重要手段。

在研究领域,众多学者和企业纷纷投入大量资源进行推荐算法的研究和优化。经典的推荐算法,如协同过滤、基于内容的推荐和混合推荐等,得到了广泛应用和深入研究。同时,随着深度学习、强化学习等技术的发展,一些新型的推荐算法,如基于神经网络的推荐、基于元学习的推荐等,也逐渐成为研究热点。王志寅(2023)提出了一种信息过滤的KGAT推荐算法(KGAT-IF),通过改进注意力得分策略和增加信息过滤层,优化了推荐效果。任富军(2023)通过将机器学习算法与协同过滤和矩阵分解相结合,他构建了混合推荐算法,实现了更好的推荐效果。庞皓宇(2023)基于元学习的推荐算法,提出了PNMTA方法,通过预训练的网络调制和任务自适应来提升推荐性能。文小月(2023)基于Spark平台对协同过滤推荐算法进行了改进优化,提出了一个新的推荐系统模型,并引入了时间权重和注意力策略来提高推荐准确性和用户满意度。李晓苗(2022)提出了基于SVD++和用户聚类的协同过滤算法,通过引入用户属性信息和时间权重因子改进了SVD++算法,提高了评分预测准确性。国内推荐系统的研究还注重与实际应用的结合。在电商领域,通过结合用户的购物历史、浏览行为等数据,实现个性化商品推荐;在社交媒体领域,通过分析用户的社交网络关系和互动行为,实现精准的内容推荐。这些应用不仅提高了用户体验,也为企业带来了巨大的商业价值。同时,国内的研究者也关注到推荐系统存在的一些问题,如数据稀疏性、冷启动问题、用户隐私保护等。针对这些问题,研究者们提出了各种解决方案,如利用社交网络信息、引入辅助信息、采用矩阵分解等技术来缓解数据稀疏性问题;利用用户画像、新用户引导等方式来解决冷启动问题;采用差分隐私、联邦学习等技术来保护用户隐私。

国内推荐系统的研究呈现出多元化、深入化的趋势,不仅关注算法的优化和创新,也注重与实际应用的结合和问题的解决。未来,随着技术的不断进步和应用场景的不断拓展,相信推荐系统将会发挥更大的作用。

(3)玉米种质资源推荐算法的研究现状

在国内,玉米种质资源推荐算法的研究主要聚焦于遗传算法、机器学习、数据挖掘和基因组学等领域。利用这些技术,研究者致力于建立品种与性状之间的关系模型,以提高对抗逆性、高产性等重要特征的准确识别[24]。此外,远程感知技术的应用、决策支持系统的开发,以及基于云计算的大数据处理也成为国内研究的重要方向。多学科合作在整个研究领域中得到强调,而对数据质量、模型可解释性、算法的鲁棒性和社会伦理等方面的问题仍需要进一步关注和解决[25]。李晓峰等[26]利用K-means聚类算法对玉米种质资源进行遗传多样性分析,将玉米种质资源划分为四个类群,并分析了各个类群的遗传背景、地理分布和遗传距离。赵丽娜等利用K-means聚类算法和灰色关联分析对玉米抗旱性进行评价,将玉米品种划分为三个抗旱等级,并确定了影响玉米抗旱性的主要指标[27]。郭云飞等利用K-means聚类算法和支持向量机对玉米叶片病害进行识别,将玉米叶片图像划分为四个类别,并实现了高精度的病害分类[28]。杨娜用改进的聚类有效性函数来选取k值。综合考虑了类内相似性、类间差异性,采用该函数在玉米良种集中得到了优良的玉米种子,验证了其正确性[29]。

目前,玉米种质资源推荐算法面临一些挑战和问题。数据质量和数据共享方面存在困难,因为不同地区和机构采集的玉米遗传数据可能存在差异,而数据的开放共享涉及到隐私和安全性等问题。其次,模型的可解释性仍然是一个重要问题。此外,推荐算法的鲁棒性和通用性需要更多关注,尤其是在不同的环境条件下,例如面对气候变化和逆境时,算法的性能可能会受到影响。

第二章 技术原理

2.1 灰色关联分析

灰关联分析就是通过对各个要素间的相互联系进行刻画,从而得出各个要素间的相互联系,从而确定其重要性和顺序。该方法的基本思路是:按照要素的顺序,研究要素间的几何关系,要素间的几何特征越接近,说明要素间的联系越密切;相反,它们之间的联系并不密切,可以反映出各个要素与主要行动之间的相关度。自邓聚龙教授首次提出灰色系统理论后,就受到了学术界的广泛重视与肯定,并成为一门基于数理理论的系统工程,受到了国内外众多学者的广泛探讨。随着对灰色系统理论的深入研究与发展,它已被广泛地运用于各个领域。

灰关联度分析法就是通过对各要素的分析,得出各要素间的数量关系。

(1)先确定能体现系统行特性的映射量,并找到相应的比较序列:

(2)将系统中的全部序列执行无量次函数:

(3)计算系统中各因素间的关联系数

结合系数的计算方式见式(2-1),这里的区分系数的数值在一个区间之内,通常取为体系中所有因子的两极极大差异,即二者的两个层次的最大差异。是一个体系内的差异映射,它反映了体系内因子间的各个点与基准序列的绝对差。

                      (2.1)

由系统中各个要素间的联系来计算相关系数,然后再以相关系数为基础,获得关联度,其计算公式如下:

                     (2.2)

通过对各因子与各因子间的灰关联度的分析,将各因子与各因子间的灰关联度进行量化,为后续研究提供了方便。

2.2 K-means聚类

K-means聚类算法是一种无监督的机器学习方法,它可以将数据集中的样本分成若干个簇,使得同一个簇中的样本相似度较高,不同簇中的样本相似度较低。K-means聚类算法的原理如下,首先,随机选择K个样本作为初始的簇中心点。然后,计算每个样本到各个簇中心点的距离,并将每个样本分配到距离最近的簇中心点所在的簇。接着,根据分配后的簇,重新计算每个簇的中心点,即每个簇中所有样本的均值[39]。重复上述两个步骤,直到簇中心点不再发生变化或达到最大迭代次数为止。K-means聚类算法的优点是简单易实现,适用于大规模数据集。它的缺点是需要事先指定K值,且对初始簇中心点的选择敏感,可能陷入局部最优解。此外,它假设簇是球形或凸形的,对于非线性可分或噪声较多的数据效果不佳[40]。

K-means聚类算法也是本文框架中最近本的推荐算法,基于K-means聚类算法去解决核心问题,K-means聚类标准算法最常用的算法使用了迭代优化的技术。它被称为k-均值算法而广为使用,有时也被称为Lloyd算法(尤其在计算机科学领域)。已知初始的k个均值点

算法的按照下面两个步骤交替进行,分配(Assignment),将每个观测分配到聚类中,使得组内平方和(WCSS)达到最小[41]。因为这一平方和就是平方后的欧氏距离,所以很直观地把观测分配到离它最近的均值点即可。

      (2.3)

其中每个

都只被分配到一个确定的聚类St中,尽管在理论上它可能被分配到2个或者更多的聚类。

更新(Update)对于上一步得到的每一个聚类,以聚类中观测值的图心,作为新的均值点。

                    (2.4)

因为算术平均是最小二乘估计,所以这一步同样减小了目标函数组内平方和(WCSS)的值。这一算法经常被描述为“把观测按照距离分配到最近的聚类”。标准算法的目标函数是组内平方和(WCSS),而且按照“最小二乘和”来分配观测,确实是等价于按照最小欧氏距离来分配观测的。如果使用不同的距离函数来代替(平方)欧氏距离,可能使得算法无法收敛[42]。然而,使用不同的距离函数,也能得到k-均值聚类的其他变体,如球体k-均值算法和k-中心点算法。

2.3 近邻推荐算法

近邻推荐算法是一种基于协同过滤的推荐模型,它根据用户或物品之间的相似度,为目标用户推荐最可能感兴趣的物品。近邻推荐算法有两种主要的类型,基于用户的近邻推荐和基于物品的近邻推荐。基于用户的近邻推荐算法的核心思想是,如果两个用户在过去对物品有相似的评价,那么他们在未来也会有相似的喜好。因此,该算法首先计算用户之间的相似度,然后找到目标用户的 K 个最近邻居,即与目标用户最相似的 K 个用户。接着,该算法根据这些近邻用户对物品的评分,预测目标用户对未评分物品的评分,并按照评分降序排列,生成 top-N 的推荐列表。基于物品的近邻推荐算法的核心思想是,如果一个用户对某些物品有相似的评价,那么他对这些物品的近邻也会有相似的评价。因此,该算法首先计算物品之间的相似度,然后找到目标用户已评分物品的 K 个最近邻居,即与这些物品最相似的 K 个物品[43]。接着,该算法根据目标用户对已评分物品的评分和物品之间的相似度,预测目标用户对未评分物品的评分,并按照评分降序排列,生成 top-N 的推荐列表。以下是几种常见的使用方法公式。

第一种非个性化方法,在不考虑偏置项用户的所有评分的均值,即用户的均值

                     (2.5)

考虑偏置项,考虑这种方式的主要原因是每个人的评分习惯不同,有些人喜欢给高评分,比如满意给5分,不满意给3分;有些人则比较鲜明,满意给5分,不满意给1分。所以,用每个人减去均值后的偏差来衡量喜欢程度。

                (2.6)

第二种个性化方法是基于相似度衡量方法——Pearson 相关系数

               (2.7)

其中,

 表示用户a 的近邻,

表示用户 a ​ 和 u ​ 之间的相似度。

2.4 遗传算法

遗传算法是一种模拟自然选择和遗传中发生的复制、交叉(crossover)和变异(mutation)等现象的随机全局搜索优化方法。它从任一初始种群(Population)出发,通过随机选择、交叉和变异操作,产生一群更适合环境的个体,使群体进化到搜索空间中越来越好的区域,这样一代一代不断繁衍进化,最后收敛到一群最适应环境的个体(Individual),从而求得问题的优质解[44]。遗传算法流程图如图2.1所示。遗传算法从多个初始点而不是单个初始点开始搜索,因此可以有效地跳出局部极值,具有良好的寻找全局最优解的能力,能够在非连续,多峰和嘈杂的环境中以较大的概率收敛到全局最优或满意的解 ,增加了其搜索最优解决过程的灵活性[45]。

图 2.1 遗传算法流程图

Fig.2.1 Genetic algorithm flowchart

2.5 本章小结

本章介绍了本文主要的技术原理,分别是灰色关联度,遗传算法、K-means聚类和近邻推荐算法。这些技术都是农业工程与信息技术专业的重要内容,它们可以帮助分析和处理大量的农业数据,提高农业生产的效率和质量。通过本章的简介,我们对这些技术有了一个初步的了解和掌握。在下一章中,介绍一些常用的农业数据集,并展示如何使用这些技术对这些数据集进行分析和处理

第三章 数据集简介

3.1 数据集来源

采用国家现代农业科技示范基地(净月)国家种质资源长春观测实验站提供的数据2000条和《中国作物种质资源信息网》内的数据270356条建立本平台使用的数据集,CGRIS是一个由中国农业科学院作物科学研究所种质信息研究室主办的国家级网站,旨在收集、整理、保存和发布中国各种作物的种质资源信息。这个网站拥有粮食、纤维、油料、蔬菜、果树、糖、烟、茶、桑、牧草、绿肥、热作等340多种作物,47万份种质的信息,包括种质数据查询、分析、地图、照片、规范等功能。这个网站还提供了一些农业相关的科普知识,如农业百科知识、作物病虫害知识、植物遗传资源科普、作物转基因科普等,以及一些作物新品种和优异种质的介绍。这个网站是一个非营利公益性的公共研究平台,接受农业农村部和中国农业科学院的监督管理,为国家和社会提供作物种质资源的保护和利用服务。

3.2 数据介绍

数据集了包含了玉米种子的各种信息,包括基本信息、来源和保存信息、生长发育特征、形态特征、化学成分、加工特性、抗性特征、田间表现、耐寒特征、氨基酸含量和其他信息。这些信息用于标识、分类、评价和管理玉米种质资源,以及评价其生物学性状、外观品质、营养价值、加工品质、抗逆能力、适应性和蛋白质组成。此外,还包括了描述玉米种质资源分布和分类的其他信息。

详情如图3.1所示,库编号、统一编号、品种名称、译名、科名、属名和学名,这些是玉米种子的基本信息,用于标识和分类玉米种质资源。原产地、高程、东经、北纬、亲本来源、保存单位和保存编号,这些是玉米种子的来源和保存信息,用于追溯和管理玉米种质资源。播种期、株高、穗位高、主茎叶片数、雄穗分枝数、雄茎叶片数、抽丝日数、生育日数、双穗率、倒伏度,这些是玉米种子的生长发育特征,用于评价玉米种质资源的生物学性状。穗形、粒型、粒色、轴色、穗长、穗粗、穗行数、千粒重,这些是玉米种子的形态特征,用于评价玉米种质资源的外观品质察地点,类型,省,地区,样品类型,种类,这些是玉米种子的其他信息,用于描述玉米种质资源的分布和分类。

图3.1  中国作物种质资源信息网

Fig.3.1  CGRIS-Chinese Crop Germplasm Information Network

3.3 数据集预处理

如图3.2所示,我们在数据清理和转换将数值字段进行单位转换。根据需要进行数据筛选,例如仅选择特定地区或特定类型的数据。处理文本字段,例如将科名和属名合并成一个字段。对日期字段进行解析和格式化,如果有日期信息。可以使用 Pandas 提供的函数来执行这些任务。将清理和转换后的数据导入到 NumPy 数组中,以便进一步的分析和计算。

图 3.2数据集预处理流程

Fig 3,.2 Dataset preprocessing process

3.4 异常数据检测模型

使用数据集建立数据异常清洗神经网络模型,选取数据集中的地点、批次、产量、亩产、穗长,并对其进行拆分,创建年、月、日、周、小时等字段作为训练的特征,使用众数(出现频率最高的类别)来填充缺失值。保证简单和快速、保留原始数据的分布特点。对数据集进行特征编码、标签值数组维度转换和归一化操作后搭建用户上网异常行为分析的神经网络模型,激活函数选择为

,用户上网异常行为分析神经网络图如图3.3所示。

图 3.3异常行为分析网络神经

Fig 3.3 Abnormal Behavior Analysis Network Neural

在模型中交替进行前向计算和反向传播。通过多次迭代训练,模型的参数将逐渐调整以最小化损失函数,从而提高模型对异常行为的检测能力,前向传播和反向传播的过程如图所示。

输入为

初始化的各个权重分别为

可得到经过第一个全连接层得到hidden layer的值为

经过第二个全连接层得到输出值为

通过前向传播从input layer到output layer方向得到各层的输出值后,再从output layer返回input layer进行反向传播,通过前向传播得到的输出Y和output layer的输入

 ,可以分别求

 ,更新参数

后,将这些梯度值作为输入传给hidden layer。hidden layer接收输入

,再配合其前向传播时得到的

可以分别求出

更新参数

后,将这些梯度作为输入传给input layer,直到input layer不需要求梯度和更新参数,反向传播结束。

图 3.4前向传播和反向传播

Fig 3.4 Forward propagation and backpropagation

最终数据结果相似处理前和处理后数据中的缺失值的热力图如图3.5所示

图 3.5数据处理前后缺失值热力图

Fig 3.5 Heat map of missing values before and after data processing

3.5本章小结

在本章节种详细介绍了数据的收集、清理和可视化处理过程。首先提供了关于不同玉米品种的数据,包括各种属性和性质的详细信息。然后,我们使用Pandas库对数据进行了清理,包括替换空字段为NaN,并删除包含NaN的行,以保证数据的质量和一致性。为了更清晰地展示数据清理的效果,比较了处理前后的数据缺失情况的热力图。在下一章中,为下一章节实现优化算法奠定基础。

4基于灰色加权的K-means聚类算法

4.1灰色加权K-means聚类算法设计

本文把K-means算法与玉米种质属性灰色关联分析相结合,提出了一种灰色加权K-means聚类算法(GWK-means)。首先用灰色关联分析玉米种质属性之间的关联度,根据关联度得到玉米种质属性的权重比:然后通过对数据属性的灰色加权,增大了聚类中不同簇别之间的距离,减小了同一簇中的玉米种质之间的距离,使得玉米种质数据的聚类效果更好,灰色加权K-means聚类算法的具体步骤如图4.1所示。

图4.1 GWK-means聚类算法过程

Fig.4.1 GWK-meansclusteringalgorithmprocess

在加权K-means(WK-means)聚类中,权值在一定程度上反映了样本集的数据分布特征,但是该权重只是对数据集的分布进行了分析,缺少对数据集维度的属性分析,本文通过灰色关联法对玉米种质资源的属性进行分析,在计算样本点不同维度数据的权值时,考虑玉米种质属性之间的灰色关系,通过灰色关联分析得到的权重系数,进一步计算玉米种质数据集中的不同维度数据的权重值:

                          (4.1)

其中,

是样本数据中第

个维度对比参考维度的关联度,

是所有维度的关联度之和,灰色关联分析玉米种质属性的权值能够更好的体现数据集中各个维度之间的相互关系。

灰色加权K-means聚类算法(GWK-means)与经典K-means算法的区别在欧式距离的计算上,灰色加权后的欧氏距离公式如下:

            (4.2)

其中,

是样本

和样本

维灰色加权后计算出来的欧氏距离,

表示玉米种质数据集中的第

个玉米种质属性的灰色权重值,

分别表示第

个玉米种质属性的两个种质所对应的数据。

通过公式(4.2)可以看出,灰色加权K-means聚类算法在计算欧氏距离时,考虑玉米种质属性之间的权重关系,使得同类样本数据之间的欧氏距离变小,不同样本数据之间的距离增大,同时降低了异常点对聚类结果的影响。针对玉米种质资源数据的特点,灰色加权K-means聚类算法放大了玉米种质数据之间的差异,增强了聚类效果。

4.2 玉米种质资源数据预处理

玉米种质资源数据在三个数据库中有不同的种质属性描述,首先把同一属性的描述转换成为统一的标准。中国作物种质信息网中玉米种质数据的信息与江苏省种质资源保护与利用平台中的玉米属性标准大部分相同,但存在一些属性的标准不一样,例如,在中国作物种质信息网中的条锈反应型和赤霝病抗性的标准级别分别是HS,MS,S,MR,HR,而在江苏省种质资源保护与利用平台中则是用高感,中感,感病,中抗,高抗用作二者的标准。在玉米种质数据处理的时,把条锈反应型和赤需病抗性的标准统一转换成高感,中感,感病,中抗,高抗。

在统一了小考种质数据的属性标准后,发现数据存在缺失和异常值情况,为了更好地支持研究进一步的进行,需要对收集的玉米种质数据进行数据清洗。数据清洗较为常用的方法是删除法和填补法,本文采用基于统计分析的填补发和删除法对玉米种质资源数据进行清洗。

(1)删除法

删除法便捷有效,对缺失玉米种质数据属性进行删除,或者对玉米样本删除,这种方法也会删除掉一些还存在一定的可用性的玉米种质数据,这就造成了有用信息的人为缺失,使数据质量再次降低,降低了数据集的可用性

。故本研究只对严重缺失的玉米种质数据进行删除法处理,采用以下两种方法:

1)对属性删除。在玉米种质数据集中的一些属性值的缺失量巨大,对所有玉米种质资源数据的该属性直接删除。但是考虑到数据的可用性,只针对玉米种质属性数据大量缺失的属性进行删除处理。

2)对玉米种质样本删除。当一个玉米种质样本的属性缺失,或者该条小夌种质的大部分属性数据缺失时,将这些玉米种质样本直接删除。

(2)基于统计分析的填补法

目前常见的填补法就是在实践中比较广泛使用的基于统计分析的填补法,也是目前处理不完整数据集中缺失数据问题中的一个主要的方法,在给出合理的填补值的情形下以期望能够降低缺失数据带来的数据分析误差。针对玉米种质数据缺失较少的采用以下填补方法:

1)玉米种质数据中存在少量缺失的数值型数据采用均值填补法,计算玉米种质数据中该属性完整的样本平均值,利用平均值对缺失的玉米种质数据进行填补。针对服从正态分布的玉米种质属性,采用分割之后的平均值填补。

2)针对玉米种质数据中的非数值型数据,例如赤露病抗性,叶锈反应型等采用的时众数进行插补。

3)玉米种质数据中存在一些异常值,在这种情况下,分析该种质其它属性,找到与之相似的玉米种质属性,并根据对应属性进行平均值修正。

表4.1玉米种质数据集的分布情况

Table3-2Distributionofwheatgermplasmresourcedatasets

Datasets

Datasize

Attributes

Cluster

Wheat1

150

5

3

Wheat2

475

5

3

Wheat3

150

8

3

玉米种质数据集随着聚类数的不断增大,分类就越精细。由于每个类别的聚合程度不断增大,与之对应的误差平方和就会逐渐降低。当聚类簇别的聚合程度大幅增加时,SSE的值下降的就快。聚类值

在1到3的变化过程中,SSE迅速下降,说明聚类质心为1和2的时候,聚类效果较差。在聚类

值大于3后的SSE值下降缓慢,并逐渐趋于稳定,所以在实验中

值取3。

4.3 灰色加权K-means聚类结果分析

具体实验在Wheat的三个子数据集Wheat1、Wheat2和Wheat3上对传统K-means算法、WK-means算法和本文的灰色加权K-means算法(GWK-means)进行测试和对比,三种算法分别在玉米种质资源的三个数据集上运行100次,结果取平均值。

表4.2算法在Wheat1上的聚类结果

Table4.2 ClusteringresultsofthealgorithmontheWheat1

Algorithm

Accuracy/%

K-means

76.6

WK-means

81.5

GWK-means

87.6

表4.3算法在Wheat2上的聚类结果

Table4.3 TheclusteringresultsofthealgorithmontheWheat2

Algorithm

Accuracy/%

K-means

64.2

WK-means

73.8

GWK-means

81.6

表4.3算法在Wheat3上的聚类结果

Table4.3TheclusteringresultsofthealgorithmontheWheat

Algorithm

Accuracy/%

K-means

69.6

WK-means

72.6

GWK-means

86.0

根据聚类算法在三个数据集上的准确率可以看出,本文提出的灰色加权K-means算法(GWK-means)的聚类准确率高于另外两种算法,在三个玉米种质数据集上的平均准确率相比传统的K-means算法提升了

,比WK-means算法提升了

,本文提出的灰色加权K-means聚类算法在计算欧氏距离时,加入了对玉米种质属性的灰色关联分析,根据玉米种质属性之间的相互关系确定聚类中各个属性的权重比,增加聚类过程中的不同簇间的距离,增强了聚类效果。

图4.2三种算法的聚类准确度

Fig.4.2Clusteringaccuracyofthethreealgorithms

通过图3-3的准确率指标折线图可以直观看出,几种不同算法在Wheat1数据集上表现最好,在Wheat2数据集上表现最差,而两者数据集的属性数目基本相同,原因是Wheat2数据集的数据量较大;而对比Wheat1数据集和Wheat3数据集,玉米种质属性数量增加,根据对比可以看出数据量的大小对算法的聚类效果影响较大,属性数目对聚类效果影响较小。对比算法在Wheat1和Wheat3上的聚类结果,在增加聚类维度的情况下,灰色加权K-means聚类算法仍具有较好的聚类效果,说明了本文算法的优越性。

图4.3是本文算法和另外两种算法的聚类时耗对比,GWK-means算法在玉米种质数据集上的运行时间更短,相比其他两种算法,聚类效率更高。

图4.3算法的平均耗时对比

Fig.4.3Theaveragetime-consumingcomparisonofthealgorithm

综上所述,相较于传统的K-means算法和WK-means算法,灰色加权的K-means聚类算法(GWK-means)的准确度更高,运行速度更快。其根本原因是:采用灰色关联分析确定玉米种质属性间的权重比,使得不同簇别的距离增大,降低了异常点的影响,增加了玉米种质数据之间的区分度。实验过程中还发现,测试传统K-means算法时,对同一组玉米种质数据,前后运行两次程序,输出的结果是不同的,而本文的改进算法在相同前提下多次实验输出结果稳定。这是因为对玉米种质数据集进行聚类时,传统K-means算法没有考虑到数据集中各个属性之间的影响,本文的灰色加权K-means(GWK-means)算法通过灰色关联分析数据集中各个属性的相关度,然后得到它们之间的权重比,再进行聚类分析,增加了聚类簇间的距离,使得聚类效果更好。

4.4 基于多层感知机(MLP)模型的玉米种质推荐模型

基于多层感知机(MLP)模型的玉米种质推荐是一种先进的机器学习方法,通过整合大量环境因素和特性,构建了一个多层次、非线性的神经网络模型,用于预测和推荐最适合特定条件下的玉米种质。首先,该方法通过数据的收集和预处理,将涵盖生长周期、穗粗、千粒重等多方面的信息。然后,通过特征提取和标签定义,确定了模型的输入和输出,建立了监督学习的框架。MLP模型作为核心组件,通过多个层次的神经元进行训练,学习了特征与性能之间的复杂关系。在模型训练和调优阶段,通过使用已有数据对模型进行反复训练和验证,以提高其在未知数据上的泛化能力。最终,经过训练的MLP模型可以用于预测未知环境下的玉米种质性能,并为农业生产提供科学的推荐决策。

这种基于MLP模型的玉米种质推荐方法具有显著的优势。MLP模型具有强大的非线性建模能力,是一种前馈神经网络模型,由多个神经元组成的多层结构,通过学习输入和输出之间的复杂非线性关系,适用于各种机器学习任务。其通过层与层之间的权重连接和激活函数的引入,实现了对复杂模式的学习和表示,是深度学习领域的基础模型之一。能够更好地适应不同环境和条件下的复杂关系,提高推荐模型的预测准确性。这一方法为现代农业生产提供了一种智能化、科学化的种质推荐解决方案,有望在提高农业产量和可持续性方面发挥积极作用。

4.5改进MLP的玉米种质推荐模型

通过引入狮群算法进行多层感知机(MLP)模型的优化,我们得以在玉米种质推荐任务中实现对模型超参数的自动搜索。在这一方法中,将MLP模型的配置视为个体基因编码,通过定义适应度函数来量化模型在玉米种质推荐任务中的性能。狮群算法通过轮盘赌选择、交叉和变异等进化操作,不断演化种群中的个体,以逐步改进MLP模型的参数设置。通过这种进化过程,系统在适应度函数的指导下,有望发现更优越、适应性更强的MLP配置,从而提高模型在玉米种质推荐中的准确性和效能。

如图5.1所示,通过狮群算法生成一系列新的MLP超参数配置,包括学习率、隐藏层神经元数量等。然后,对每个配置构建MLP模型,并在任务训练集上进行训练,利用事先定义的适应度函数评估性能。根据适应度函数的结果,选择在任务上表现较好的MLP配置作为下一代的父代,通过交叉和变异等操作逐渐演化优化。最终,输出具有最优超参数配置的MLP模型,这些优化后的参数可直接应用于实际玉米种质推荐任务中,提高模型性能和推荐准确性。

图 5.1狮群MLP原理图

Fig 5.1 Lion Group MLP Principle Diagram

优化后的MLP模型在损失函数曲线上如图5.2所示,从图中可以看出优化后的模型具有更为稳定的训练过程,以及更低的训练损失。通过狮群算法全局搜索超参数配置,优化后的模型更趋向于全局最优,具有更好的泛化性能,能够更有效地适应未见过的数据。这些优势使得优化后的MLP模型在玉米种质推荐等任务中表现更为出色,为提高模型性能和推荐准确性提供了有力的支持。

图 5.2 损失函数对比图

Fig 5.2 Comparison chart of loss functions

第5章 种质资源推荐平台

随着人们对办公场地要求更低,办公简洁化的要求升高,一个随时随地可用的种质资源推荐平台等技术在农业方面将会在农业领域有更广泛的应用,通过背景调研本平台需要具有方便快捷易普及等特点。因此开发了移动端、Web端与微信小程序的吉林省种质资源平台。本系统的后台语言采用python,中间件采用nginx,前端采用html,通过Web Service调用后端提供的接口,模型采用第五章描述的优化后的算法实现该系统,吉林省种质资源平台通过用户输入多条或单条信息获取推荐玉米种的功能,能够快速准确的将结果返回到前端页面。

5.1吉林种质资源平台设计与系统环境

为了实现Web端、移动端与微信小程序快速推荐玉米种质的功能,使用优化后的算法,实现了同时支持多端的吉林种质资源平台,为达到贴合实际应用场景的目的,系统要保持健壮性、便宜性等特点,系统主要功能需求如下:

(1)APP、WEB、微信小程序多端合一,支持上传数据到后台,并得到返回结果。

(2)实现多端页面样式统一,并进行多次测试,保证页面美观。

(3)优化响应速度,考虑系统运行时可能出现的意外情况,并在程序中做出异常处理。系统功能设计如图5.1。

图 5.1 系统功能设计图

Fig 5.1 System Function Design Diagram

吉林种质资源平台开发工具为pycharm与Hbuilder,使用python语言设计、搭建、训练系统所需要的模型,最后将系统发布到服务器上。

5.2吉林种质资源平台实现

5.2.1 吉林种质资源平台WEB端

WEB端界面样式如图5.2所示,用户可以输入播种期、株高、穗形、主茎叶片数、穗长、穗位高、高程、期望播种城市、千粒重等信息种的一个或一个以上,系统首页如图5.2所示,直观展示入围的种子,同时对入围种子的株高、穗形、主茎叶片数、穗长、穗位高、高程等指标数据进行展示。

图 5.2WEB端界面样式图

Fig 5.2WEB interface style

图 5.3系统首页图

Fig 5.3System homepage diagram

5.2.2 吉林种质资源平台APP端与小程序

App与小程序实现功能相似,实现用户上传数据进行推荐查询,页面样式如下图所示,图6.4为APP页面,图5.5为小程序页面,用户通过上传数据,快速获取所需的玉米资源。

图 6.4 APP页面

Fig 6.4 APP page

图 5.5 小程序页面

Fig 6.5 Mini Program Page

5.4本章小结

本章基于pycharm和Hbuilder开发了玉米种质程序,根据实际情况确认了程序的需求,根据需求开发了移动端、Web端、微信小程序以及服务端,然后对每个部分操作方式、实现的功能进行了阐述,系统运行效果与识别效果达到了预期目标,最后对系统各个页面进行了展示。

第七章 总结和展望

7.1 结论

本文通过使用多种关键技术,包括图计算、PageRank算法、K-means算法和近邻推荐算法,以处理和分析大量的农业数据。数据的质量和一致性是关键,因此详细介绍了数据的全生命周期,包括数据的采集、清理和可视化处理。此外,还深入探讨了不同的算法优化方案,以提高数据的质量和可用性。以此构建一个综合性的种质资源平台,集成各种农业数据和技术,以提高农业生产的效率和质量。为玉米种质资源推荐提供了理论和实践支持。本文主要研究结论如下:

1、利用卷积神经网络对异常值进行处理,采用众数填充法对缺失值进行处理,将玉米种质资源的数据转换为图数据库的节点和边。

2、将处理后的数据导入图数据库,并执行雅各比迭代法(Jacobi Iteration)的PageRank算法。PageRank将对品种的重要性进行评估,并为每个品种分配一个得分,以反映其在图中的位置。

3、运用遗传算法优化K-means聚类,寻找最佳的聚类中心初始化和K值设定。结合PageRank得分和优化后的K-means聚类算法,确保将相似的品种聚集在一起。

4、用户可以自定义权重,或者将PageRank用于计算玉米属性的得分权重。基于PageRank得分和K-means聚类结果,使用加权近邻推荐算法推荐与用户需求相关的玉米品种。

5、本文提出的算法100次迭代,3000个体样本时,耗时为3.2389,MAE降低了7.1275%, RMSE降低了6.375%。优于本文提出的其他算法,为本文中平台的搭建提供了理论基础。

6、玉米种质资源推荐平台的移动端、WEB端和微信小程序在解决断网或断电等异常情况后仍能正常运行,且系统安装包兼容多款安卓系统手机;

7、玉米种质资源推荐平台的Web端主要实现用户上传数据,推荐玉米种子详细信息的功能,并兼容多种浏览器及其不同版本。

7.2 展望

本文以图计算、PageRank算法、K-means算法和近邻推荐算法为基础,以相应编程语言为支持,建立了吉林省玉米种质资源推荐平台,吉林省玉米种质资源推荐平台是一个基于图计算、PageRank算法、K-means算法和近邻推荐算法的创新性农业决策支持系统。该平台首先通过数据采集与预处理,整合吉林省的玉米种质资源数据,构建了一个复杂的图模型,其中节点代表不同的玉米品种,边表示它们之间的相关性。通过PageRank算法,对这个图中的节点进行排名,识别出在网络中具有重要性的玉米品种,为用户提供了权威推荐。

同时,利用K-means算法对玉米品种进行聚类,帮助用户更好地了解玉米资源的多样性,为不同需求的农民提供个性化的种植建议。通过近邻推荐算法,平台考虑用户对某些玉米品种的偏好,推荐相似的品种,进一步提升了推荐的精准性。这一系列算法的融合使得平台能够全面分析吉林省玉米资源,为农业生产提供科学、精准的决策支持。该平台将不断优化推荐算法,引入大数据技术实现对数据的实时更新和更高效的处理。数据可视化技术将被用于向用户清晰呈现玉米种质资源的关系,提升用户对信息的理解。平台还将成为一个社交化的农业平台,促进用户之间的知识共享和交流,形成一个共创共享的社区。通过与农业机构、科研机构、农民的合作,实现数据和经验的共享,推动吉林省玉米产业的可持续发展。总体而言,吉林省玉米种质资源推荐平台有望成为农业产业升级的引领者,为农民提供更加科学、可持续的农业生产方案,助力农业现代化的推进。为相关应用提供了技术支持,但目前仍有一些不足之处需要完善。

1、括扩大数据收集范围,探索更高效的数据清理和处理方法,

2、改进推荐平台,以更好地满足农业生产者和决策制定者的需求。

3、不断跟踪和采用最新的算法和技术,以确保我们的平台能够应对不断变化的数据和挑战。

参考文献

[1]Baobao W ,Zechuan L ,Xin L , et al.Genome-wide selection and genetic improvement during modern maize breeding.[J].Nature genetics,2020,52(6)

[2]Yingjie X ,Shuqin J ,Qian C , et al.The genetic mechanism of heterosis utilization in maize improvement.[J].Genome biology,2021,22(1)

[3]Kelin W ,Ali M A ,Awais R , et al.DNNGP, a deep neural network-based method for genomic prediction using multi-omics data in plants.[J].Molecular plant,2022,

[4]Qian C ,Shuqing J ,Feng X , et al.Genome optimization via virtual simulation to accelerate maize hybrid breeding.[J].Briefings in bioinformatics,2021,23(1):

[5]黄洋.基于聚类和项目类别偏好的协同过滤推荐算法研究[D].浙江理工大学[2023-11-08].

[6]赵宇峰,李新卫.基于歌曲标签聚类的协同过滤推荐算法的研究[J].计算机应用与软件,2018,35(06):

[7]李若璞.基于数据挖掘的玉米种质资源推荐模型研究[D].河南农业大学,2022.

[8]刘忠强.作物种质辅助决策关键技术研究与应用[D].中国农业大学,2016.

[9]刘佳茵.基于知识图谱的个性化新闻推荐模型研究[D].西安理工大学,2023.

[10]刘旺达.基于在线评论的XC酒店顾客满意度评价与提升策略研究[D].西安理工大学,2023.

[11]于海波,刘婧,李强伟等.跨类别样本迁移框架下的不平衡分类方法[J].计算机工程与应用,

[12]G. M. Dakhel and M. Mahdavi, "A new collaborative filtering algorithm using K-means clustering and neighbors' voting," 2011 11th International Conference on Hybrid Intelligent Systems (HIS), Melacca, Malaysia, 2011, pp. 179-184, doi: 10.1109/HIS.2011.6122101.

[13]张连刚,陈星宇,谢彦明.农民专业合作社参与和乡村治理绩效提升:作用机制与依存条件——基于4个典型示范社的跨案例分析[J].中国农村经济,2023,(06):

[14]赵黎.发展新型农村集体经济何以促进共同富裕——可持续发展视角下的双案例分析[J].中国农村经济,2023,(08):

[15]Wang Lei,Wang Pengxin,Liang Shunlin,Zhu Yongchao,Khan Jahangir,Fang Shibo.Monitoring maize growth on the North China Plain using a hybrid genetic algorithm-based back-propagation neural network model[J].Computers and Electronics in Agriculture,2020,170()

[16]彭余辉,张小雷,孙刚.基于内容和协同过滤加权融合的音乐推荐算法[J].安庆师范大学学报:自然科学版,2021,027(2):P.44-4853

[17]彭玉,程小平.一种基于自适应近邻选择的协同过滤推荐算法[J].电脑知识与技术,2016,012(16):127-130

[18]颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,000(8):63-66

[19]Kumar P N ,Fan Z .Hybrid User-Item Based Collaborative Filtering[J].Procedia Computer Science,2015,60(C):

[20]Indu V ,Amarjeet K ,Iqbaldeep K .Refined Clustering of Software Components by Using K-Mean and Neural Network[J].IAES International Journal of Artificial Intelligence (IJ-AI),2015,4(2):

[21]Suvra P ,Yingwei P ,Wisdom A , et al.A support vector machine-based cure rate model for interval censored data.[J].Statistical methods in medical research,2023,

[22]Šimić D ,Galić V ,Jambrović A , et al.Genetic Variability in Carotenoid Contents in a Panel of Genebank Accessions of Temperate Maize from Southeast Europe[J].Plants,2023,12(19):

[23]Guoping S ,Aifang W ,Xingchuan W , et al.Identification of southern corn rust resistance QTNs in Chinese summer maize germplasm via multi-locus GWAS and post-GWAS analysis#13;[J].Frontiers in Plant Science,2023,14

[24]彭玉,程小平.一种基于自适应近邻选择的协同过滤推荐算法[J].电脑知识与技术,2016,012(16):127-130

[25]颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,000(8):63-66

[26]《基于协同过滤的吉林省玉米种质资源推荐平台》, 作者,李晓峰, 张晓东, 王建国, 李

[27]《基于协同过滤的农产品价格预测模型》, 作者,赵丽娜, 李晓峰, 张晓东, 王建国,《农业信息化工程》, 2019, 12(3): 1-81

[28]《基于协同过滤的农业玉米种质资源推荐平台》, 作者,郭云飞, 李晓峰, 张晓东, 王建国, 《农业信息化研究》, 2020, 11(2): 1-102

[29]杨娜,邱建林,潘阳等.K-means算法在玉米良种选育中的应用[J].计算机工程与设计,2014,35(08):2864-2871.DOI:10.16208/j.issn1000-7024.2014.08.038.

[30]《基于协同过滤的农业知识推荐系统》, 作者,刘慧, 李晓峰, 张晓东, 王建国, 《计算机应用研究》, 2020, 37(3): 1-83

[31]侯磊,刘金环,于旭等. 图神经网络研究综述 [J/OL]. 计算机科学, 1-25[2023-11-08] 

[32]姚凯旋. 图神经网络的模型与算法研究[D]. 山西大学, 2023. DOI:10.27284/d.cnki.gsxiu.2023.000075

[33]袁帅. 基于深度学习的稻瘟菌水稻互作相邻组学间关系挖掘算法研究[D]. 吉林大学, 2023. DOI:10.27162/d.cnki.gjlin.2023.002558

[33]Baobao W ,Zechuan L ,Xin L , et al. Genome-wide selection and genetic improvement during modern maize breeding. [J]. Nature genetics, 2020, 52 (6): 565-571.

[34]Brin S ,Page L .Reprint of: The anatomy of a large-scale hypertextual web search engine[J].Computer Networks,2012,56(18)

[35]孙悦.社交媒体平台用户参与行为谱构建与行为强度测度研究[D].吉林大学,2023.

[36]Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2012. ImageNet classification with deep convolutional neural networks. In Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1 (NIPS'12). Curran Associates Inc., Red Hook, NY, USA, 1097–1105.

[37]Simonyan K ,Zisserman A .Very Deep Convolutional Networks for Large-Scale Image Recognition.[J].CoRR,2014,abs/1409.1556

[38]C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens and Z. Wojna, "Rethinking the Inception Architecture for Computer Vision," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, pp. 2818-2826, doi: 10.1109/CVPR.2016.308.

[39]G. Huang, Z. Liu, L. Van Der Maaten and K. Q. Weinberger, "Densely Connected Convolutional Networks," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017, pp. 2261-2269, doi: 10.1109/CVPR.2017.243.

[40]谢卓,康乐,周丽娟等.基于对比学习的多关系属性图聚类方法[J].计算机科学,2023,50(11)

[41]李冰,杨珊珊,刘春刚等.基于空间划分的K-means聚类室内定位垂直精度优化方法[J].中国惯性技术学报,2023,31(09):

[42]李清.基于多尺度特征融合的点云分割方法研究[D].吉林大学,2023.

[43]胡智超,余翔湛,刘立坤等.基于上下文生成对抗网络的时间序列异常检测方法[J].哈尔滨工业大学学报,

[44]马秀.面向深度神经网络模型的性能优化技术研究[D].吉林大学,2023.

[45]郭强.并行JACOBI方法求解矩阵奇异值的研究[D].苏州大学,2011.

[46]Parker S J .Targeting Low-Energy Ballistic Lunar Transfers[J].The Journal of the Astronautical Sciences,2011,58(3)

[47]赫彦文,刘紫阳,李建义,彭新宇.基于遗传算法的测试用例自动生成方法综述[J].廊坊师范学院学报(自然科学版),2020,020(4):16-20

[48]李少波,宋启松,李志昂,张星星,柘龙炫.遗传算法在机器人路径规划中的研究综述[J].科学技术与工程,2020,020(2):423-43

[49]袁立强,陆子贤,孙建宁,段任之,赵争鸣.电能路由器设计自动化综述—设计流程架构和遗传算法[J].电工技术学报,2020,035(18):3878-3893

[50]李岩,袁弘宇,于佳乔,张更伟,刘克平.遗传算法在优化问题中的应用综述[J].山东工业技术,2019,000(12):242-243180

[51]Wang Lei,Wang Pengxin,Liang Shunlin,Zhu Yongchao,Khan Jahangir,Fang Shibo.Monitoring maize growth on the North China Plain using a hybrid genetic algorithm-based back-propagation neural network model[J].Computers and Electronics in Agriculture,2020,170()

[52]彭余辉,张小雷,孙刚.基于内容和协同过滤加权融合的音乐推荐算法[J].安庆师范大学学报:自然科学版,2021,027(2):P.44-4853

[53]付丽梅.基于K-means优化的SOM神经网络算法的视频推荐系统[J].软件工程,2022,25(10):17-19+7.DOI:10.19644/j.cnki.issn2096-1472.2022.010.004.

[54]施天虎,徐洪珍.基于改进K-means和优化评分的协同过滤推荐算法[J].江苏科技大学学报(自然科学版),2021,35(06):72-77.

[55]蔡畅.基于改进的K-means算法和SVD算法的推荐算法研究[D].辽宁科技大学,2021.

作者简介

姓   名

王佳宇

性    别

民    族

籍   贯

政治面貌

入学时间

申请学位类别

农业硕士

论文答辩日期

授予学位年月

就业信息

就业单位

就业单位性质

就业单位地址

联系方式(个人/办公)

学习(工作)经历

攻读学位期间发表与学位论文的科研成果信息

发表学术论文

题     目

刊物名称(级别)

署名次序

署名单位

发表情况

(刊出时间/录用)

获奖项目及专利

名     称

成果级别

署名 次序

署名单位

发表情况

致谢

  • 14
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

6贝3

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值