摘 要
玉米是世界上重要的粮食作物之一,也是我国的主要经济作物之一,对于保障国家粮食安全和农民收入具有重要意义。玉米种质是提高玉米产量和品质的关键环节,也是玉米科学研究的核心内容。玉米种质专家是玉米种质领域的权威人士,他们具有丰富的理论知识和实践经验,能够为玉米种质提供有效的指导和建议。然而,由于玉米种质专家的数量有限,地域分布不均,以及信息传播不畅等原因,导致玉米种质专家的资源利用率低,玉米种质工作的效率和质量受到影响。
为了解决这一课题,本研究提出了一项创新性的方法,基于K-means聚类算法与图计算、遗传算法和加权近邻推荐算法的结合,旨在构建一套玉米种质资源推荐系统。该系统的设计目的是根据综合考虑玉米种质资源的特征和实际需求,为对玉米种质有需求的人员提供最佳的专家推荐服务,以进一步提高玉米种质专家的资源利用效率,并促进玉米种质领域的不断发展。主要研究结论如下:
1、使用卷积神经网络处理异常值、众值填充处理缺失值,将玉米种质资源的数据转化为图数据库的结点和边。
2、将数据导入图数据库中,并运行雅各比迭代方法(Jacobi Iteration)的PageRank算法。PageRank将评估品种的重要性,并给出每个品种的分数,以反映其在图中的地位。
3、使用遗传算法来优化K-means聚类是寻找最佳的簇中心初始化以及K值的设置。结合PageRank分数和优化后的K-means聚类算法,以确保将相似的品种聚合在一起。
4、用户自定义加权或将PageRank计算玉米中属性得分加权。基于PageRank分数和K-means聚类结果,得出更为精确的数据集,为验证优化后数据有效性,使用加权近邻推荐算法来初步推荐与其需求相符的玉米品种。
5、使用狮群优化算法对MLP模型进行优化,并使用优化后的数据集进行验证,得出的推荐结果应当优于本文提出的另一优化算法推荐结果。
6、玉米种质资源推荐系统移动端、WEB端和微信小程序在断网或断电等异常情况解决后仍能正常运行,并且系统安装包支持多款安卓系统手机;
7、玉米种质资源推荐系统Web端主要实现用户上传数据推荐玉米种子详细信息的功能,并支持多个浏览器及其不同版本。
关键词:PageRank 遗传算法 K-means聚类分析 MLP
Abstract
Corn is one of the important food crops in the world, and also one of the main cash crops in China, which is of great significance for ensuring national food security and farmers' income. Maize germplasm is the key link to improve maize yield and quality, and it is also the core content of maize scientific research. Maize germplasm experts are the authorities in the field of maize germplasm, who have rich theoretical knowledge and practical experience, and can provide effective guidance and suggestions for maize germplasm. However, due to the limited number of maize germplasm experts, uneven regional distribution, and poor information dissemination, the resource utilization rate of maize germplasm experts is low, and the efficiency and quality of maize germplasm work are affected.
To address this topic, this study presents an innovative approach based on the combination of K-means clustering algorithm with graph calculation, genetic algorithm and weighted nearest neighbor recommendation algorithm, aiming to construct a recommendation system for maize germplasm resources. The system is designed to provide the best expert recommendation service for those who need maize germplasm by comprehensively considering the characteristics and actual needs of maize germplasm resources, so as to further improve the resource utilization efficiency of maize germplasm experts and promote the continuous development of maize germplasm field. The main study conclusions are summarized as follows:
1. Use the convolutional neural network to handle outlier values and crowd values to fill them with missing values, and transform the data of maize germplasm resources into nodes and edges of the graph database.
2. Import the data into the graph database and run the PageRank algorithm of the Jacoby iterative method (Jacobi Iteration). PageRank The importance of the breed will be assessed and the score of each breed is given to reflect its position in the figure.
3, using a genetic algorithm to optimize K-means clustering is to find the best cluster center initialization as well as the setting of K value. Combining the PageRank-scores and the optimized K-means clustering algorithm, to ensure that similar varieties are pooled together.
4. Users can customize the weight or weight the PageRank to calculate the attribute score in corn. Based on the PageRank-score and K-means clustering results, a more accurate dataset is obtained. In order to verify the validity of the optimized data, the weighted nearest-neighbor recommendation algorithm is used to initially recommend maize varieties consistent with their requirements.
5. The lion-group optimization algorithm is used to optimize the MLP model and verify with the optimized dataset, and the recommendation results should be better than the recommended results of another optimization algorithm proposed in this paper.
6. The mobile terminal, WEB terminal and wechat small programs of the corn germplasm resources recommendation system can still operate normally after the abnormal situations such as network disconnection or power failure are solved, and the system installation package supports a number of Android system mobile phones;
7. The Web terminal of the corn germplasm resource recommendation system mainly realizes the function of users to upload the details of recommended corn seeds, and supports multiple browsers and their different versions.
Key words: PageRank genetic algorithm K-means cluster analysis MLP
目录
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
随着人口的增长和经济的发展,粮食安全成为了全球面临的重大挑战之一。玉米是世界上重要的粮食作物之一,也是我国的主要经济作物之一,对于保障国家粮食安全和农民收入具有重要意义[1]。根据联合国粮农组织的统计数据,2022年全球玉米产量为11.48亿吨,占全球粮食总产量的36.4%;我国玉米产量为2.77亿吨,占全球玉米总产量的24.16%,位居世界第二[2]。玉米种质是决定玉米产量和品质的关键因素,也是玉米科学研究的核心内容。玉米种质专家是玉米种质领域的权威人士,他们具有丰富的理论知识和实践经验,能够为玉米种质提供有效的指导和建议[3]。然而,由于玉米种质专家的数量有限,地域分布不均,以及信息传播不畅等原因,导致玉米种质专家的资源利用率低,玉米种质工作的效率和质量受到影响[4]。如何合理地分配和利用玉米种质专家的资源,使得每一个对玉米种质有需求的人都能得到适合自己需求和特征的玉米种质专家的指导和帮助,是一个亟待解决的问题[5]。为了解决这一问题,本文提出了一种基于图计算、遗传算法优化K-means聚类算法和加权近邻推荐算法结合使用的玉米种质专家推荐算法(GAKN)。该算法的目的是根据玉米种质资源的特征和需求,为对玉米种质有需求的人推荐合适的玉米种质,从而提高玉米种质专家的资源利用率,促进玉米种质工作的发展。
玉米种质资源推荐算法的研究对现代农业具有重要的意义。该算法的发展可以加速玉米种质推荐过程,提高农业生产效率。推荐算法有助于更快速、准确地筛选出适应性更强、高产性和抗逆性更好的玉米品种。这不仅有助于应对日益变化的气候条件,还能够提高玉米产量,从而满足不断增长的粮食需求。通过推荐适应性强、抗逆性好的玉米品种,可以降低对化肥、农药等农业生产投入的需求,减少环境污染和土地资源的过度利用。这有助于构建更加生态友好和可持续的农业生产体系,提高农业的资源利用效率,降低生产成本,同时减轻对生态系统的压力。玉米种质资源推荐算法的研究还可以为农民提供智能化的决策支持。通过将推荐算法融入决策支持系统,农民可以更好地了解不同玉米品种的特征和适应性,从而更明智地选择适合其种植区域和需求的品种。这不仅有助于提高农民的决策水平,还可以提升农业生产的整体效益。
本文的主要目的是通过对我国玉米种质资源数据库的数据挖掘,对我国的玉米种质资源进行挖掘。在此基础上,将 K均值聚类与最近邻推荐相结合,建立面向育种专家的玉米种质资源推荐模型。本文提出一种新的基于遗传算法的玉米种质资源预测方法。结果表明,利用聚类方法对玉米资源进行性状分析是一种高效、准确的方法。该方法可以实现对玉米种质资源的快速、高效的采集。在此基础上,利用灰关联分析方法,研究不同品种间的相关性,并利用K-means聚类方法,进一步提高分类精度与速度。在此基础上,结合最近邻推荐算法,建立玉米种质资源推荐模型,为育种工作者提供更为精准、有效的筛选工具,育种工作者就可以更容易地在海量的玉米种质中寻找到自己需要的优良种质。
1.1.2 研究意义
当前,玉米种质面临着一些挑战。首先,我国玉米种植面积不断减少,使得玉米产量呈下降趋势,如何应用种质推荐帮助人们对种质资源信息进行分析,通过分析结果帮助玉米育种专家解决实际问题是一个有待解决的问题。其次,我国玉米种质总体上还存有一定差距,在不同领域呈现出领跑、并跑和跟跑共存的态势[7]。玉米种质推荐算法它通过深度学习和多组学分析,对玉米种质资源进行创新和高效利用。这有助于发掘具有高产、抗逆、抗病、宜机收等特性的优异种质[8]。为玉米的种质创新和种质筛选提供了理论依据和技术支持。我国玉米单产水平目前只有世界先进水平的60%左右,面临利用优良品种选育与应用提高玉米单产的强烈现实需求[9]。此外,目前种质目的不明确、种质技术落后、缺乏种植资源创新能力等问题也制约了玉米种质的进步[10]。
农业种质资源的数量很多,传统的农业种质研究往往只能从海量的种质数据中去挑选符合需求的种质,不仅需要花费大量的时间,而且效率很低,难以综合的对种质的多个性状进行分析,测量数据的准确性也容易受到人为因素的影响[11]。为了获取所需的种质,研究人员需要高精度、低成本和高通量的技术,这就需要计算机科学技术和农业研究相结合,以帮助研究人员解决种质选取的问题[12]。我国是人口众多的玉米生产大国,玉米生产的重要性不言而喻。但是,我国的玉米种植面积在不断减少,导致玉米产量呈现下降的趋势,培育高质高产的玉米品种成为育种工作者的当务之急。面对海量的玉米种质资源数据,如何利用现有的技术和数据对种质资源的信息进行分析,通过分析结果进行种质推荐是一个急需解决的问题[13]。
1.2 国内外研究现状
1.2.1 国外研究现状
(1)关于数据挖掘的研究现状
数据挖掘不仅可以用于农业整体信息的获取,而且可以对农业生产过程进行分析。数据挖掘是一种新型的农业生产管理方法,它可以为农业生产企业提供决策支持。Joel J. P. C.等[24]指出,信息在智慧农业中的地位日益重要。气候条件,土壤,疾病;昆虫、种子、化肥等方