关注作者了解更多
我的其他CSDN专栏
关注作者了解更多
资料来源于网络,如有侵权请联系编者
目录
第1章 绪论
1.1 研究背景和意义
1.1.1 研究背景
决策被广泛地应用于人们的日常生活中,在生活中的大大小小方面都会用到决策。决策是指决策者在若干个可行方案中选择最优方案的过程。最开始时,人们面对的问题比较简单,单个决策者就足以解决应对。但随着人类进入工业化、城市化时代后,所面临的问题越来越复杂多样,而解决问题所需要的知识越来越多,单个决策者已很难给出科学的决策结果。因此,群体决策应运而生。
随着大众教育的普及和知识的专业化,人们具备了更广泛的知识储备和专业技能,从而能够通过分工合作来解决许多繁琐且困难的问题。现代社会中,许多任务和问题已经超出了个体能力的范围,必须通过集体的智慧和协作才能得到有效解决。这种转变体现为决策方式的演变:从单一的个体决策逐渐向群体决策转变。在面对简单问题时,个人决策通常足够。然而,随着问题的复杂性增加,仅依靠个人的知识和判断可能变得不足。这时,集体智慧的优势开始显现,通过集思广益,群体决策能够更全面地考虑问题的各个方面,找到更为有效和全面的解决方案。在群体决策过程中,各成员能够分享各自的知识和经验,互相补充和校正,从而提高决策的准确性和可靠性。尤其在面对复杂问题时,不同专业背景和视角的成员可以从多维度分析问题,提出多种解决方案。这种多元化的意见和建议,能够更好地应对问题的多样性和复杂性。群体决策是指多个决策者面对同一个问题在若干个可行方案中选择最优方案的过程。群体决策采用集体的意见来选择最优方案,能最大限度地提高决策的准确性并减少个人决策失误所带来的损失。但随着信息技术和社会网络的快速发展,决策过程的复杂性以及信息量也在快速增长,在社会需求的影响下,大量的决策者可以参与到决策的过程中,决策群体呈现大规模趋势。因此,大规模群体决策应运而生。
大群体决策具有几个显著特征:(1)大规模群体决策问题不再局限于少数决策者或者专家参与,参与决策的规模更加庞大(一般来说不少于20人);(2)决策者很可能来自于不同领域,他们可能有着不同的社会地位、教育背景、专业性知识与经验等,导致所提出的观点多样性显著增加,并且决策者们的意见很有可能有所不同或者存在冲突。(3)随着社会问题的日益复杂化,决策问题不再局限于单一目标,而是逐渐演变为需要兼顾多目标的复合决策模式。同时,这些问题不仅包含静态的决策元素,还包含动态变化的成分,使得决策过程更具挑战性。在这种背景下,单一的个体决策方式已经难以满足需求,群体决策的重要性愈发凸显。
在信息技术迅速发展的社会环境下,各类信息和数据的获取变得更加便捷,但也使得决策者面临的信息量和复杂性急剧增加。为了从海量数据中提取有用的信息,并有效地做出决策,决策者需要依赖先进的聚类技术来分析和理解他们的偏好模式。这种需求推动了能够高效聚类决策者偏好模型的方法和工具的研究和发展。聚类算法作为分析和处理复杂数据的关键技术,逐渐成为大群体决策领域的热门研究方向。通过聚类算法,可以将具有相似偏好的决策者分为不同的集群,简化决策问题的复杂性,提高决策效率和准确性。然而,传统的聚类算法在面对大规模、多维度和动态变化的数据时,往往显得力不从心。因此,对聚类算法进行改进和优化,成为当前研究的重点。改进后的聚类算法不仅需要提高处理大规模数据的能力,还需要具备适应动态变化的特性。这包括开发更加灵活的算法,能够实时调整和更新决策者的偏好集群,以应对环境和数据的不断变化。此外,新的聚类方法还需要在保证计算效率的同时,提供更高的聚类准确性,以便在复杂的决策场景中提供可靠的支持。例如,基于历史偏好信息的聚类方法通过利用决策者在不同时间点的偏好数据,能够更准确地捕捉他们的行为模式和偏好变化,提高聚类结果的稳定性和可靠性。在现代社会中,决策问题的复杂性和多样性使得对高效聚类算法的需求愈发强烈。这一需求推动了聚类算法的改进和创新,成为大群体决策领域的重要研究方向。随着信息技术的不断进步,新的聚类方法和技术将为解决复杂决策问题提供更强有力的工具,推动决策科学的发展和应用。
1.1.2 研究意义
本文的研究意义将从理论方面与现实运用方面分开阐述。
理论意义: 在大群体决策中,使用决策者的历史偏好信息进行聚类具有重要的理论意义。通过分析决策者在不同时间点的偏好变化,可以更准确地理解其决策行为和倾向,从而提高聚类结果的稳定性和决策过程的科学性。使用历史偏好信息进行聚类,可以综合考虑决策者在不同决策回合中的偏好变化,从而提供更全面和准确的聚类结果。相比于仅使用单一时间点的偏好信息,历史数据能够更好地反映决策者的长期倾向和行为模式,减少偶然因素的影响。决策者的偏好在不同时间点可能会受到外部环境、个人经验和信息变化等多种因素的影响而发生变化。通过使用历史偏好信息,可以更好地适应这些动态变化,提供更加灵活和适应性的聚类结果,从而提高决策过程的适应性和灵活性。历史偏好信息的使用可以增强聚类过程的鲁棒性,使其对噪声和异常值的影响更小。在决策过程中,个别决策者的异常行为或偏好可能会影响聚类结果。通过综合历史数据,这些异常行为的影响可以被平滑和削弱,从而提高聚类结果的可靠性。使用决策者的历史偏好信息进行聚类,不仅能够提高聚类结果的精度和可靠性,还能够增强聚类过程的鲁棒性和动态适应性。为大群体决策提供更加科学和有效的支持,推动决策研究和应用的进一步发展。
现实意义: 通过分析和利用历史偏好信息,可以更有效地提高决策过程的科学性、准确性和可靠性,增强决策的适应性和灵活性,促进更广泛的实际应用。使用历史偏好信息进行聚类,可以综合考虑决策者在不同时间点的偏好变化,从而提供更全面和准确的聚类结果。相比于仅使用单一时间点的偏好信息,历史数据能够更好地反映决策者的长期倾向和行为模式,减少偶然因素的影响,提高决策的准确性。在实际应用中,资源配置的优化是决策的关键问题之一。通过使用历史偏好信息进行聚类,可以更好地理解决策者的需求和偏好,从而更合理地配置资源。例如,在市场营销中,可以根据消费者的历史购买行为进行精准营销,提高资源配置效率。不同决策者在决策过程中的需求和偏好可能存在显著差异。利用历史偏好信息,可以更准确地识别个性化需求,提供定制化的服务和解决方案。例如,在金融服务中,根据客户的历史投资偏好提供个性化的理财建议,提高客户满意度。历史偏好信息不仅反映了决策者过去的行为模式,还可以用来预测其未来的行为趋势。通过分析历史数据,可以建立预测模型,提前预判决策者的未来行为,提供更有针对性的决策支持。例如,在公共政策制定中,可以根据历史数据预测公众对政策的反应,提前制定应对策略。决策环境和决策者的偏好是动态变化的。使用历史偏好信息进行聚类,可以更好地适应这些变化,提供更加灵活和适应性的决策方案。在应对突发事件和复杂环境时,能够快速调整决策,提高决策的灵活性和应变能力。在群体决策中,公平和透明是重要的因素。利用历史偏好信息,可以更全面地了解决策者的意见和需求,确保决策过程的公正性和透明性。例如,在公共政策制定中,通过综合分析公众的历史反馈,确保决策符合多数人的利益和需求,提高决策的公信力。在多方参与的决策过程中,协同合作是实现最佳决策的关键。通过使用历史偏好信息进行聚类,可以识别和理解不同群体的需求和目标,促进各方之间的协同合作,达成共识。例如,在企业战略制定中,通过分析各部门的历史数据,协调各部门的目标和行动,形成一致的战略规划。使用决策者的历史偏好信息进行聚类,不仅能够提高决策的准确性和效率,还可以优化资源配置,支持个性化服务,预测未来行为,增强决策的动态适应性,提高决策的公正性和透明性,促进协同合作。这些现实意义对于提升决策质量、增强决策效果、推动决策科学化和精细化管理具有重要作用。在实际应用中,通过充分利用历史偏好信息,可以为各类复杂决策提供科学支持,促进各领域的创新和发展。
1.2 国内外研究现状
大群体决策研究的发展历程可以追溯到多个学科的交叉发展,包括社会选择理论、博弈论、计算机科学和人工智能等领域。18世纪的法国数学家孔多塞提出了孔多塞投票法,这是最早的群体决策方法之一。19世纪末,社会选择理论得到了进一步的发展,阿罗不可能定理提出了在满足一组合理条件下,不可能存在一种完全公平的社会选择方法。20世纪初,统计学开始应用于群体决策问题,研究如何在不确定性和随机性中进行有效决策。20世纪中期,博弈论的发展为群体决策提供了重要的理论基础。纳什均衡等概念揭示了在不同策略选择下个体和群体的行为模式。1965年,由Zadeh提出的模糊集理论提供了一种处理不确定性和模糊性的方法,在群体决策中得到广泛应用。20世纪70年代,多准则决策分析法(MCDA)逐渐成熟,包括层次分析法(AHP)和逼近理想解排序法(TOPSIS)等,用于处理包含多个评价标准的决策问题。20世纪80年代以来,随着计算机技术的发展,计算机支持的群体决策系统(GDSS)开始应用于实际中,提供了交互式和协作式的决策支持环境。20世纪90年代,人工智能和机器学习技术的发展进一步推动了群体决策研究。神经网络、遗传算法等技术在决策优化和预测中得到应用。
21世纪初,随着互联网和社交媒体的发展,大数据分析技术在群体决策中发挥了重要作用。数据挖掘和机器学习算法用于从海量数据中提取有价值的信息,辅助决策。复杂网络理论用于研究群体中个体间的关系和互动模式。社交网络分析和社区检测技术在群体决策中的应用逐渐增多。多主体系统(MAS)用于模拟和分析群体决策过程,研究个体行为和群体行为之间的相互影响。仿真技术和智能体模型成为研究群体决策的重要工具。共识模型是当前的研究热点之一,研究如何在异质性群体中达成共识,发展动态共识模型和迭代共识模型,处理复杂和动态的决策环境。而随着物联网和传感技术的发展,实时数据获取成为可能,研究实时决策和适应性决策也成为了当前的研究热点。研究如何在群体决策中保护个体隐私和实现公平性,发展隐私保护技术和公平算法也是当前研究热点之一。
大群体决策研究经历了一个从理论基础的建立到信息技术和算法应用,再到大数据和复杂网络时代逐步演变的过程。在这一过程中,各个阶段的研究重点和方法都在不断丰富和完善,为大群体决策的广泛应用奠定了坚实的基础。当前,大群体决策研究正在积极应对复杂性和不确定性问题。随着决策环境的日益复杂和动态变化,研究者们致力于开发更加灵活的决策模型,以应对不确定因素和复杂环境带来的挑战。这包括使用更先进的算法和模型,如深度学习和强化学习,来优化决策过程。在大数据时代,数据隐私保护和决策公平性成为大群体决策研究中的重要议题。研究者们正在探索如何在不侵犯个体隐私的前提下,充分利用数据进行决策。同时,如何确保决策过程的公平性和透明性,以避免决策结果对特定群体的不利影响,也是当前研究的重要方向。随着物联网和实时数据处理技术的发展,实时和适应性决策变得愈加重要。研究者们正在开发实时决策系统,能够根据最新的数据和信息,动态调整决策方案。这种适应性决策不仅提高了决策的灵活性和响应速度,也大大增强了决策的科学性和有效性。随着技术的不断进步和方法的日益完善,大群体决策研究将在多个领域展现出广泛的应用前景。例如,在公共政策制定、企业战略规划、社会治理和环境管理等方面,大群体决策都将发挥重要作用。通过综合运用先进的算法、大数据分析和复杂网络模型,研究者们可以为决策提供更加科学和有效的支持,推动社会和经济的可持续发展。
第2章 大群体决策问题
2.1 群体决策与大群体决策的区别
通常情况下,当参与决策的专家个数不少于20个时,群体被视为大群体。为了更好地理解大群体决策,本文将从规模、问题的复杂性和挑战、决策的透明度和参与度与结果的接受度四个方面描述群体决策与大群体决策的区别。
(1)规模
群体决策:决策者往往是相对较小的团体,比如项目小组或工作团队,参与者较少。
大群体决策:参与者数量众多,可能包括整个组织、多个部门或公众。在这种情况下,参与者的数量可能达到数百甚至数千人。
(2)问题的复杂性和挑战
群体决策:虽然处理的问题可以很复杂,但相对较小的参与者规模使得每个人的意见都能得到较好的考虑。决策过程中的沟通和协调通常更直接、更容易管理。
大群体决策:面临的挑战更大,不仅因为参与者众多,而且由于涉及许多不同的意见和利益,使得共识达成异常困难。这要求更复杂的数据管理、意见聚合和共识建立机制。
(3)决策的透明度和参与度
群体决策:因为每个决策者都有机会表达自己的观点并参与讨论,通常能够确保较高的透明度和参与度。
大群体决策:因为决策者太多,且来自各个领域,有着不同的考虑于利益,甚至还有因为自身利益而产生的非合作行为。因此维持透明度和高参与度更加困难。
(4)结果的接受度
群体决策:因为决策者直接参与了决策过程,使得较小的群体更容易达成一致,成员通常对结果有较高的认同感。
大群体决策:由于参与者众多,确保每个人对结果的满意度非常困难。因此,如何有效地增强决策的合法性是关键。
2.2 大群体决策的过程
大群体决策主要包括四个关键过程,每个过程在整体决策中都扮演着重要角色:(1)意见表达和收集过程;(2)大群体决策聚类过程;(3)共识达成过程;(4)选择过程。
2.2.1 意见表达和收集过程
传统的意见表达有投票和问卷调查两种方法。投票:每个群体成员对候选方案进行投票,这是最直接的意见表达方式。投票可以是单选、多选或排序投票。
问卷调查:通过问卷调查收集群体成员对不同方案的意见和建议。这种方法可以获取详细的偏好和理由。而现在,利用互联网技术,群体成员可以通过在线投票平台表达意见。这种方法便于大规模数据收集和实时统计。 也可以在社交媒体和网络论坛上创建讨论区,群体成员可以发表观点、进行讨论和互动,然后利用自然语言处理技术分析讨论的内容。
在意见表达和收集的过程中,决策者需要提供关于备选方案的详细决策信息。这些信息是决策过程的基础,能够帮助综合各方意见,达成共识。在大群体决策的相关研究中,存在多种决策信息表达形式,每种形式都有其独特的特点和适用场景。由于决策事件本身的复杂性以及决策者的个人因素,决策者通常难以直接对备选方案进行偏好排序。这是因为决策者在面对多个复杂方案时,往往无法一目了然地确定它们的优劣顺序。然而,通过两两比较来判断方案之间的优劣相对来说要容易得多。这种方法让决策者只需比较两种方案,判断出其中一个更优或更差,从而逐步构建出一套完整的偏好关系。因此,基于两两比较得出的偏好关系作为决策者意见表达的一种形式,得到了广泛应用。这种方法不仅简化了决策者的判断过程,还提高了意见表达的准确性和一致性。在众多决策过程中,尤其是在涉及复杂选择和多重备选方案的情况下,这种基于两两比较的偏好表达方式显得尤为重要和实用。它不仅帮助决策者更清晰地表达其偏好,也为最终决策提供了更可靠的依据。在这些偏好关系中,模糊偏好关系的应用尤为普遍。因此,本文将采用模糊偏好关系来表示决策者的偏好。
2.2.2 大群体决策聚类过程
聚类是一种无监督学习算法,是模式识别中的主要技术之一。它的核心目标是根据一定的标准,将一个数据集划分为多个子集或簇。通过这种划分,聚类算法力求使得同一子集中的数据对象尽可能相似,而不同子集中的数据对象尽可能不同。在大群体决策过程中,由于涉及众多参与者和大量的决策数据,传统的群体决策方法往往无法有效应对。因此,聚类方法成为解决大群体决策问题的有效工具。在大群体决策中,使用聚类方法可以将意见相近的决策者分到同一个集群中。这一过程使得决策者群体被划分为若干个相对独立的子集,每个子集包含了具有相似意见和偏好的决策者。通过将意见相近的决策者分配到同一集群,聚类方法显著减少了需要直接处理的决策者数量。这不仅简化了决策过程,还使得处理变得更加可控和高效。在实际操作中,整个大群体决策过程可以被简化为对多个较小的群体进行决策,这些较小群体的决策结果最终综合为整体决策结果。每个集群被视为一个独立的决策单元,进行内部的决策讨论和共识达成。这种方式不仅简化了决策问题的复杂性,还使得每个集群内部的讨论更加深入和高效。由于集群内的成员具有相似的意见和偏好,共识达成的过程也变得相对容易。各个集群独立达成共识后,再将各集群的意见综合起来,形成整体决策。聚类方法作为一种强有力的工具,在大群体决策中发挥了重要作用。通过有效地分组和简化决策过程,极大地提高了决策效率和质量,为解决复杂的决策问题提供了科学和系统的解决方案。
层次聚类采用自底向上或自顶向下的方法来划分决策者,形成集群。在自底向上策略中,每个决策者起初被视为一个独立的集群,随后逐步合并相似的集群,形成更大的集群。这种策略在大群体决策中广泛应用,特别适用于初始决策数据中集群数量不明确的情况。层次聚类的优点是无需预设集群数量,能够根据数据的内在结构动态调整,生成一个层次结构的树状图,从中可选择合适的聚类数量。
相比之下,划分聚类方法在大群体决策中更为常用,常见的算法包括K-means、模糊C-means和模糊等价关系聚类算法。K-means聚类算法首先从所有决策者中选定k个聚类质心,然后依据其他决策者到质心的距离进行分组。动态K-means聚类算法进一步优化,通过决策者的模糊偏好关系距离进行聚类,在每次迭代中更新质心和聚类结果,直到输出稳定的聚类结果。划分聚类算法通常计算简单、效率高,适合处理大规模数据集。然而,它们需要预先设定集群数量,这可能导致对初始设定的敏感性,尤其是质心选择或其他参数的设定。这种敏感性可能影响聚类结果的稳定性和准确性,因此在应用时需要谨慎设定初始参数,并可能进行多次实验以确定最佳的集群数量和质心位置。
综上所述,聚类方法在大群体决策中的应用具有重要意义。通过合理选择和应用聚类算法,可以有效应对大群体决策中的复杂性和数据量问题,提高决策效率和质量。
2.2.3 共识达成过程
在大群体决策中,庞大且多样的决策者数量使得决策过程复杂。为了简化决策,通常使用聚类方法将意见相似的决策者划分为若干集群。这将复杂的大群体决策问题转化为较简单的群体决策问题。每个集群内部的意见被聚合成一个集群意见,并将每个集群视为一个独立的决策单元,随后进行共识达成过程。共识达成过程包括两个关键部分:共识水平测度和反馈调整。
共识水平反映了所有决策单元意见的一致性,通常通过衡量决策单元意见与集体意见的相似性来确定。当共识水平达到预设的阈值时,共识达成过程便可终止,进入最终选择阶段;否则,系统会激活反馈调整机制。反馈调整机制主要分为两类:(1)基于识别规则和方向规则的反馈调整。识别规则用于确定共识水平较差的决策单元、备选方案和偏好值;方向规则为偏好修改提供方向,促进群体达成共识。(2)基于优化模型的反馈调整。这种机制用于最小化原始偏好和调整偏好之间的差异或调整所需的成本。这些机制通常使用调整系数,将被识别个体的原始偏好信息与其他个体的偏好信息进行线性组合。例如,当共识水平较低时,反馈机制会将所有决策单元的意见与集体意见线性组合,使决策单元的意见逐渐向集体意见靠拢;或者,要求共识水平最低的决策单元参照集体意见进行调整。此外,还可能要求所有共识水平低于阈值的决策单元通过调整系数对其偏好信息和集体偏好进行线性组合,以提高整体共识水平。
意见偏好修改往往是一个困难的过程,这增加了达成共识的成本。考虑到大群体决策中资源有限,基于优化模型的反馈调整机制主要用于最小化原始偏好和调整偏好之间的差异或调整所需的成本。通过这种方式,可以在有限的资源和时间内有效地提高共识水平,减少决策冲突。
2.2.4 选择过程
在大群体决策中,选择过程是最终确定群体偏好和决策结果的关键步骤。这个过程需要综合前期的意见表达和收集、聚类分析以及共识达成的结果,以确保整个决策过程的公平性、合理性和有效性。在共识达成之后,需要将每个集群的意见聚合成一个最终的集群意见,以便进行整体决策。这一过程可以采用多种方法,包括加权平均、模糊综合评判和布尔聚合等。加权平均法是将各集群成员的意见按照一定的权重进行加权平均,形成集群的整体意见。权重的确定可以根据成员的影响力、可靠性等因素来设定。例如,在一个专家决策群体中,可以根据每位专家的专业水平和历史表现来分配权重。模糊综合评判是一种基于模糊数学的方法,用于处理决策过程中存在的不确定性和模糊性。该方法通过建立模糊矩阵,将各集群成员的意见综合起来,从而形成集群的整体意见。这种方法特别适用于处理复杂和不确定性较高的决策问题。布尔聚合是一种逻辑方法,通过布尔运算将各集群成员的意见进行组合,从而形成集群的整体意见。该方法简单直观,适用于明确和二元的决策问题。在意见聚合之后,需要对所有备选方案进行评分和排序。通过综合考虑各集群的意见和评分结果,最终确定得分最高或最优的方案。这一过程需要确保评分标准的公平和透明,以保证最终决策的合理性和有效性。选择过程是大群体决策中的关键步骤,涉及意见表达和收集、聚类分析、共识达成和意见聚合等多个环节。通过科学合理的方法和工具,可以确保决策的公平性、合理性和有效性,最终实现最优的决策结果。在实际应用中,根据具体的决策问题和环境,选择合适的意见聚合方法和评分标准,可以有效提升决策质量和效率。
第3章 K-means聚类算法的改进
聚类是大群体决策中的一个重要环节,聚类结果的好坏将直接影响到共识的达成和速度。传统K-means聚类算法因其随机选择初始簇中心,会导致得到的聚类结果是局部最优而非全局最优,且算法的聚类结果不稳定等问题。因此,本研究将对传统K-means算法初始选择簇中心的过程进行改进,从而提高算法的准确性以及稳定性。
3.1 聚类分析方法
根据对数据的初始处理方式不同,可以将聚类算法总结为以下五种类型:基于层次的聚类算法、基于划分的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类算法。
3.1.1 基于层次的聚类方法
层次聚类算法是一种常用的聚类方法,其核心是生成一个分层的聚类树。通过反复的拆分或合并操作,可以得到符合要求的划分结果。层次聚类方法主要有两种形式:分裂式和凝聚式。分裂式将所有对象视为一个整体,通过自上而下的策略逐步拆分,直到每个对象成为一个单独的类别或满足某些终止条件。凝聚式将每个对象视为单独的类别,通过自下而上的策略逐步合并,直到所有对象合并为一个类别或满足某些终止条件。相比分裂式,凝聚式计算方法相对简单、快速,通常能获得更好的聚类结果。
在聚类的过程中,连接方法的选择是非常关键的。层次聚类算法的一般连接方法有单连接法、完全连接法和平均距离法三种。
(1)单连接法:以两个集合中抽取的样本对之间的最小间距表示两个集合之间的距离,因此又称为最短距离法。计算公式为:
(2)完全连接法:以两个集合中抽取的样本对之间的最大间距表示两个集合之间的距离,因此又称为最大距离法。计算公式为:
基于层次的聚类算法由于其不需要预先定义聚类数量和能够提供丰富的层次结构信息而受到欢迎。不过,其较高的计算成本和对噪声的敏感性限制了其在大规模数据集上的应用。
3.1.2 基于划分的聚类方法
基于划分的聚类算法是聚类分析中最常见和直观的一类方法。这些算法将数据集分割成几个簇,使簇内的数据点尽可能相似,而不同簇中的数据点尽可能不同。基于划分的聚类算法通常适用于中小规模数据集,并广泛应用于各种领域。常见的基于划分的聚类算法有K-means,K-medoids,K-modes和CLARA等,他们都有各自的优缺点。比如:K-means算法,简单、易于实现、计算效率高,但其需要预先指定簇的数量,对初始中心的选择敏感,可能陷入局部最优,对噪声和离群点敏感。K-medoids算法相比 K-means算法,对噪声和离群点更鲁棒,但在处理大数据集时计算成本较高。基于划分的聚类算法以其简单直观和广泛的应用而受到青睐。这类算法通常适用于球形簇或大小相似的簇,且簇的数量需要预先设定。
3.1.3 基于密度的聚类方法
基于密度的聚类算法是一类能够根据数据集中各个区域的密度来划分簇的方法。这类算法的核心优势在于它们能够识别出任意形状的簇,并能有效处理噪声和离群点。这些算法不仅能够在高密度区域内部进行聚类,而且能够识别并忽略低密度区域,从而将它们视为噪声或离群点。DBSCAN 是最著名的基于密度的聚类算法之一,它的两个最重要的参数:邻域半径(ε)和最小点数(MinPts)。工作原理为:如果一个点的ε-邻域内至少有MinPts个点,则该点被标记为核心点,在核心点的邻域内,但自身的邻域内点数少于MinPts的点被标记为边界点,既不是核心点也不是边界点的点被标记为噪声点,然后算法从任一核心点开始,将所有密度可达的点归入同一个簇,然后迭代此过程直到所有的点都被访问。DBSCN算法的优点是能够发现任意形状的簇,能有效处理噪声和识别离群点,并且不需要预先指定簇的数量,但对参数(ε和MinPts)的选择很敏感且在处理大规模数据集时,计算较为复杂、繁琐。基于密度的聚类算法广泛应用于图像处理、地理数据分析、生物信息学以及异常检测等领域,尤其适用于数据形状多样或数据中含有异常值的情况。
3.1.4 基于网格的聚类方法
基于网格的聚类算法是一种特别的聚类技术,它将数据空间划分为有限数量的单元,这些单元构成了一个网格结构。算法不直接在数据点上进行操作,而是在这些单元格上进行,这使得基于网格的方法特别适用于处理大数据集,因为它们的计算复杂度通常不直接依赖于数据中的对象数量,而是依赖于网格中的单元格数量。STING是一个经典的基于网格的聚类方法,它通过构建一个多层次的网格结构来进行聚类分析,每个网格单元存储落在此单元内的数据点的统计信息。聚类过程就是从网格的最低层开始,基于统计信息逐层向上汇总和合并,直到顶层。其优点是计算速度快,易于实施并行处理,但聚类质量非常依赖于网格的层次结构和单元格的大小。基于网格的聚类方法以其处理速度快和易于并行化的优势,成为大规模数据分析的重要工具。然而,这些方法的成功很大程度上依赖于网格结构的设计和参数的选择,这需要针对具体应用进行仔细的调整和优化。
3.1.5 基于模型的聚类方法
基于模型的聚类算法是一种高级聚类技术,它假设数据是由多个统计分布中生成的。这类算法的目标是找到数据的最佳拟合模型,并据此确定数据点的聚类归属。基于模型的聚类可以提供比传统方法更为精确的聚类划分,尤其适用于复杂的数据结构和高维数据。高斯混合模型是最常见的基于模型的聚类方法之一。它假设所有数据点都是从有限个高斯分布的混合生成的。每个簇对应一个高斯分布。算法的目标是最大化数据的似然函数,即找到最能解释已观察数据的模型参数(均值、方差和混合系数)。其优点是可以模拟具有不同大小、形状和密度的簇,但需要预先设定簇的数量,且对初始化敏感,计算量较大。而贝叶斯聚类通过在聚类过程中使用贝叶斯统计方法来估计簇的数量和簇的参数,因此不需要预先设定簇的数量,但在参数空间大时,计算需求会非常的高。基于模型的聚类算法提供了一种强大的方法来发现数据中的潜在结构,它们不仅仅是查找数据点之间的相似性,而是试图理解数据是如何生成的。这使得它们在处理复杂数据结构时比基于距离的聚类算法更有优势。然而,这种方法通常需要更多的计算资源,且对算法的初始设定比较敏感。
3.2 K-means算法
K-means聚类算法是一种很常用的划分聚类算法,其主要思想就是将数据划分为k个簇,并将每个数据点放入与其距离最近的簇中。
3.2.1 K-means算法的基本原理
K-means算法是一种经典的基于距离的聚类算法,它通过距离来评估对象之间的相似性。具体来说,算法认为两个对象之间的距离越近,它们的相似性就越高。因此,在聚类过程中,K-means算法使用距离作为相似性评价的关键指标。通过这种方式,算法能够有效地将距离较近的对象归为同一聚类,从而实现对数据集的合理划分。
K-means算法的核心思想是通过反复的迭代优化,将数据集划分为K个聚类,使得每个数据点都归属于距离其最近的聚类中心(质心)。具体而言,算法的目标是通过不断调整每个聚类中心的位置,逐步最小化数据点与其所属聚类中心之间的距离。通过这一过程,K-means算法能够优化聚类效果,使得同一聚类内的数据点尽可能相似,而不同聚类之间的数据点差异尽可能大。随着迭代的进行,聚类中心的位置不断更新,数据点的归属也不断调整,直至达到最佳聚类效果。
3.2.2 K-means算法的流程
K-means算法的基本流程是先确定好几个初始中心点,这些中心点可以是数据点也可以是任意点(一般选择数据点),然后计算各个数据点与中心点的距离,然后把数据点划分给距离最近的中心点,形成集合,接下来更新集合的中心点并再次进行距离计算和划分,直到中心点的位置不再发生改变或者达到最大迭代次数时,停止并输出聚类结果。详细步骤如下:
步骤1:随机选取K个数据点作为初始的簇中心。
步骤2:计算数据集中的每个数据点与每个簇中心的距离,并将其划分到最近的簇中。常用的距离计算公式是欧氏距离,计算公式如下所示:
步骤4:重复进行步骤2和步骤3,直到簇中心不在发生改变或者变化量小于预设的阈值,则认为算法收敛,输出聚类结果。
3.2.3 K-means算法存在的问题
K-means算法是一种广泛使用的聚类算法,它通过迭代优化将数据集划分为k个聚类。然而,K-means算法在初始阶段随机选择聚类中心点,这一特点可能导致一些问题,影响聚类结果的质量和稳定性。
由于初始中心点是随机选择的,不同的随机选择可能导致不同的聚类结果。这意味着每次运行K-means算法,即使在相同的数据集和相同的K值下,聚类结果也可能会有所不同。这种不确定性会导致结果的可重复性差,使得大群体决策更加困难。在需要做出重要决策的场景中,多个运行结果的不一致会使得决策者难以信任和使用这些结果。
因为初始中心点的选择是随机的,可能会导致算法陷入局部最优解,而不是全局最优解。局部最优解意味着算法在某个点停下来,认为已经找到最优解,但实际上可以通过进一步的调整找到更好的解。局部最优解很有可能导致聚类效果不佳,聚类内部的相似性较低,聚类之间的差异较小。
K-means算法对初始中心点的选择非常敏感,不同的初始点可能会导致完全不同的聚类结果。这种敏感性尤其在数据集中包含噪声或异常值时表现得更加明显。初始点的选择可能导致聚类结果的不稳定性增加,使得同一数据集的多次运行结果差异较大。如果随机选中的初始中心点包含异常值,聚类结果将会严重偏离,影响整体聚类效果。
3.3 K-means算法的改进
3.3.1 K-means算法的改进思路
在K-means算法中,初始簇中心的随机选择会带来一些显著的问题。首先,随机选取初始簇中心往往容易陷入局部最优解,无法获得全局最优解。其次,不同的初始簇中心可能导致完全不同的聚类结果,增加了聚类算法的结果不稳定性。此外,随机选择初始簇中心还可能增加聚类的总迭代次数,从而提高聚类的计算成本和时间开销。
本文提出了一种改进的K-means算法,基于以下事实:距离较大的样本点不太可能分到同一个簇中,而距离较小的样本点更可能分到同一个簇中。在此基础上,改进后的算法首先计算所有样本点两两之间的距离。具体步骤如下:
1)计算所有样本点两两之间的距离,并构建距离矩阵。
2)从中选择距离最远的两个样本点,将其作为前两个初始簇中心。
3)在剩余的样本点中,计算每个样本点到前两个初始簇中心的距离乘积,并选择乘积最大值的样本点作为第三个初始簇中心。
4)依此类推,在每一步中都选取到前面所有初始簇中心距离乘积最大值的样本点,直到找到k个初始簇中心。
这种方法有效利用了样本点之间的距离信息,确保初始簇中心尽可能分散,提高了K-means算法的聚类效果和稳定性。通过选择距离最远的样本点作为初始簇中心,可以避免初始点过于接近导致的局部最优解问题。同时,选择距离乘积最大值的方法优化了初始中心的选择,使初始簇中心更具代表性,减少了总迭代次数,降低了计算开销。
3.3.2改进后的K-means算法流程
改进后K-means聚类算法的具体流程如下:
步骤1:确定需要分成的聚类数目k,并计算所有样本点两两之间的欧氏距离,构建距离矩阵。计算公式如下:
3.3.3 仿真实验与结果分析
本研究将采用Kaggle中的数据集,分别用改进后的K-means聚类算法与传统K-means聚类算法对其聚类,计算并对比聚类结果的准确率。
第一次的结果:改进后的K-means算法聚类结果的准确率为84.67%,而传统的K-means算法的聚类结果的准确率为72.67%。
第二次的结果:改进后的K-means算法聚类结果的准确率仍为84.67%,而传统的K-means算法的聚类结果的准确率为68.00%。
第三次的结果:改进后的K-means算法聚类结果的准确率仍为84.67%,而传统的K-means算法的聚类结果的准确率为72.00%。
由上面三次实验地结果,可以得出如下结论:
1)改进后的K-means聚类算法其结果的准确率相比传统的K-means算法有了很大的提高。
2)传统K-means算法因随机选择初始中心点导致聚类结果不稳定,而改进后的K-means算法则解决了这个问题,聚类结果很稳定。
第4章 一般大群体共识决策框架
在决策问题中,决策者往往难以给备选方案进行排序,但可以通过两两比较来判断好坏,因此本研究将采用模糊偏好关系来表达决策者意见。
4.1模糊偏好关系
4.1.1 模糊偏好关系的概念
在传统决策理论中,偏好关系往往被定义为二元关系,分为“好”,“一样好”,“不如”。但在实际决策中,“好”也会有所不同,也即偏好也分不同的程度。而模糊偏好关系引入模糊集合理论来表达偏好强度的差异。在模糊偏好关系中,每个偏好不再是简单的“好”或“不如”,而是有一个介于0和1之间的值,表示偏好的程度。通常,模糊偏好关系可用一个判断矩阵来构成。
4.1.2 模糊偏好关系的一致性测度
当决策者使用模糊偏好关系来表达意见时,一致性度量成为一个至关重要的问题。一致性指的是在偏好关系中不存在矛盾和冲突的情况。显然,使用没有矛盾的一致信息来进行决策,比使用存在矛盾的信息更能支持理性和准确的决策过程。因此,必须设计一种有效的一致性度量机制,以确保决策者提供的偏好关系既不是随机的,也不是不合理的。一致性的定义如下:
的。然而,在实际情况下,决策者很难确保他们所表达的偏好关系是完全一致的。由于各种主观和客观因素的影响,偏好关系中常常会存在一些矛盾和不一致的情况。为了更好地处理这些不一致性,提出了偏离度的概念。偏离度用于量化决策者的偏好关系与完全一致的偏好关系之间的差异程度。通过计算偏离度,可以明确地评估和识别偏好关系中的不一致性。这不仅有助于了解决策者偏好表达的准确性,还为后续的调整和优化提供了依据。偏离度可以表示为:
4.2 大群体决策问题的定义
大群体决策问题指的是在有大量决策者参与的情况下,需要在一组可行的备选方案中进行选择,以便做出高质量和及时的决策。大群体决策问题的主要元素通常包括以下几个方面:
步骤 1:收集决策者的评价信息。
在本研究中,模糊偏好关系被用作决策者意见的表现形式。
步骤 2:利用第三章提出的改进后的K-means算法将决策者的偏好信息进行聚类,并获得相应的集群偏好关系。
步骤 3:聚合集群的偏好关系。
然后根据总体评估值对备选方案进行排名,并选择最佳备选方案。
4.3 一般大群体决策问题案例应用
地摊经济是一种传统的经济形式,商户通过摆地摊来获得收入。这种经济形式在促进商品流通、便利市民生活和繁荣经济方面发挥了重要作用,特别是在就业形势不佳的情况下,地摊经济在一定程度上可以缓解就业压力。为促进居民消费,某市某区计划从四个备选地点中选择最适合发展地摊经济的地点。这四个地点分别是一区
步骤1:随机生成专家们的对每个方案的效应值,计算出相应的模糊偏好矩阵。其中,模糊偏好关系的计算公式为:
步骤2:将专家们的模糊偏好关系进行聚类,并获得相应的集群偏好关系。
步骤3: 假定决策者的权重都相同,聚合集群的偏好关系并计算出最佳方案。
仿真结果:总体最佳方案是方案 1。
总体模糊偏好矩阵:由此可以得出结论,选择一区来发展地摊经济是最佳的选择。
4.4 本章小结
本章节解释了一般大群体决策问题的定义,以及基础的决策框架。并对一个实际大群体决策问题进行仿真解释,在此过程中,采用第三章提出的改进后的K-means算法将20名专家的偏好信息聚合为3个集合,方便了后续共识决策的过程,并计算出最优的选择。
第5章 基于动态更新偏好信息的大群体共识决策框架
在聚类过程中,现有的研究大多只考虑了决策者在一个阶段的偏好信息。实际上,决策者的偏好在不同的决策回合中是不断变化的,从而形成了历史偏好信息。相比之下,历史偏好信息更为全面。利用决策者的历史偏好信息进行聚类将更加高效、准确。
5.1 提出的大群体共识决策框架
本文提出的大群体共识决策框架如图所示,遵循一般的管理流程来解决大群体决策中的非合作行为问题。该框架的核心思想是在集群层面上识别非合作行为,并通过动态调整决策者的权重来促进群体决策的公平性和有效性。
首先,在集群层面上识别非合作行为。通过分析决策者在多个决策回合中的历史偏好数据,框架能够准确地检测出那些表现出非合作行为的决策者群体。具体而言,利用聚类算法将决策者分为若干子集,并评估每个子集内成员的合作程度。如果某个子集内存在较多的非合作行为个体,则该子集会被标记为具有非合作行为的聚类。一旦识别出非合作行为,框架将采用惩罚策略来管理这些行为。具体方法是降低已识别非合作聚类中的决策者的权重,同时增加未识别非合作行为的聚类中的决策者的权重。通过这种方式,可以减少非合作行为对整体决策过程的负面影响,增强合作行为在决策中的作用。
5.2 基于历史信息聚类的过程
5.3 共识达成的过程
共识达成的过程包括共识度量和反馈调整两部分。
5.3.1 共识度量
共识度量旨在计算决策者之间的共识水平。这种共识度量的基本思想是,我们首先计算得到的集群的偏好。然后,计算聚类之间关于其偏好信息的相似度,由此得到共识矩阵,进而计算出共识水平。
5.3.2 集群的偏好度量
5.3.3 聚类之间的相似性度量
5.3.4 集体共识水平
5.3.5 反馈调整
如果计算的共识水平未能达到共识阈值,则采用反馈调整来更新决策者的偏好,以提高决策者之间的共识水平。在反馈调整过程中,其核心思想是利用加权平均聚合算子获得集体偏好关系,指导决策者进行偏好调整。
5.4 非合作行为管理过程
在大群体决策过程中,决策者通常会根据建议修改自己的偏好关系,以达成共识,集群的偏好关系可以更接近大群体的偏好关系。但是,如果存在一个偏好与大群体有显著差异的集群,我们称这种行为为大群体非合作行为。
5.5 选择过程
5.6 仿真实验
为验证提出的基于历史信息的大群体决策框架的有效性,我设计了一个仿真实验来通过对比传统大群体决策框架下达成共识所需轮数与基于历史信息的大群体决策框架下达成共识所需轮数,来验证提出的框架确实对共识达成有一定的帮助。
5.7实验结果分析
为了检测改进后的大群体框架是否有效,我们设计传统的大群体决策框架输入相同的参数来对结果进行对比分析。而对传统大群体决策框架的仿真设计,只需改变步骤2即可,也即直接使用决策者的偏好矩阵来进行聚类。
当输入时,我们改变惩罚系数a的数值,运行程序1000次,计算出平均的达成共识所需的轮数。
表5-1 达成共识所需轮数随惩罚系数的变化
θ=0.5 | θ=1 | θ=1.5 | θ=2 | |
传统模型的avg_z | 4.204 | 3.944 | 3.631 | 3.522 |
改进模型后avg_z | 3.412 | 3.392 | 3.376 | 3.363 |
根据实验数据,画出对应的折线图,从而更为直观地看出两者的差异。
图5-2 平均达成共识所需的轮数随惩罚系数的变化
通过表格与折线图,我们可以得出如下结论:随着惩罚系数的增大,传统大群体共识决策框架达成共识所需的轮数显著减小,但提出的基于动态更新信息的大群体共识决策框架达成共识所需的轮数变化并不明显,证明所提出的框架在不同的惩罚系数下,都具有较快的共识达成速度。
当输入时,改变a的数值,运行程序1000次,计算出平均的达成共识所需的轮数。
表5-2 达成共识所需轮数随决策者数量的变化
m=30 | m=40 | m=50 | m=60 | |
传统模型的avg_z | 3.944 | 2.351 | 1.971 | 1.762 |
改进模型后avg_z | 3.392 | 1.496 | 1.052 | 0.842 |
根据实验数据,画出对应的折线图,从而更为直观地看出两者的差异。
图5-3 平均达成共识所需的轮数随决策者数量的变化
通过表格与折线图,我们可以得出结论:随着决策者数量的增大,传统大群体共识决策框架与基于动态更新信息的大群体共识决策框架达成共识所需的轮数都在不断减小,达成共识的速度加快了。
当输入时,改变a的数值,运行程序1000次,计算出平均的达成共识所需的轮数。
表5-2 达成共识所需轮数随阈值的变化
a=0.16 | a=0.17 | a=0.18 | a=0.19 | a=0.20 | |
传统模型的avg_z | 3.260 | 3.483 | 3.717 | 3.901 | 3.944 |
改进模型后avg_z | 1.567 | 1.832 | 2.220 | 2.620 | 3.392 |
根据实验数据,画出对应的折线图,从而更为直观地看出两者的差异。
图5-3 平均达成共识所需的轮数随阈值的变化
通过表格与折线图,我们可以得出结论:随着阈值a 的减小,传统大群体共识决策框架与基于动态更新信息的大群体决策框架达成共识的速度也随之增大,其中,本文提出的框架对阈值a更为敏感。
通过上述三次对比实验,我们可以得出如下结论:
(1)所提出的基于动态更新信息的大群体共识决策框架能够显著提高共识达成的效率。这一框架通过综合分析决策者在不同时间段的偏好变化,提供更全面和深入的见解,从而优化共识达成的过程。利用历史信息,不仅可以更精准地理解各决策者的长时间行为模式和倾向,还能有效减少决策过程中的不确定性和冲突。通过这种方式,该框架能够加快达成共识的速度,确保决策过程更加流畅和高效,从而更快地实现最终的决策目标。
(2)适当增加决策者的数量和减小非合作行为阈值,可以显著减少达成共识所需的轮数,从而提高共识达成的速度。增加决策者的数量则提供了更多的观点和信息,使得集体智慧在更大范围内得到充分发挥。减小非合作行为阈值,使得模型能够更快地对非合作决策者采取措施。这两者的结合,不仅提升了决策过程的效率,还增强了群体决策的动态适应性和灵活性,确保更快速地达成一致意见。
第6章 总结与展望
6.1 总结
在现实中,大群体决策已经成为决策领域的重要课题,具有广泛的应用背景。大群体决策通常涉及大量参与者,每个参与者都有各自的意见和偏好,如何有效地整合这些意见和偏好,达成群体共识,是一个具有挑战性的任务。在聚类过程中,现有的研究大多只考虑了决策者在一个阶段的偏好信息。然而,决策者的偏好在不同的决策回合中是动态变化的,这意味着单一阶段的偏好信息可能不足以全面反映决策者的真实意图。相比之下,历史偏好信息更为全面,可以提供决策者在多个决策回合中的偏好变化轨迹。因此,利用决策者的历史偏好信息进行聚类将更加高效、准确。在本研究中,我们提出了一个基于历史数据的非合作行为管理框架。该框架旨在解决大群体决策中的非合作行为问题,通过利用决策者的所有历史偏好数据进行聚类,以便更好地识别和管理非合作行为。
在我们的框架中,通过分析决策者在多个决策回合中的历史偏好数据,我们可以更准确地进行聚类。相比传统方法仅考虑单一阶段的偏好信息,我们的方法能够捕捉决策者偏好变化的长期趋势,从而更好地发现具有非合作行为的决策者群体。识别出具有非合作行为的聚类后,我们采用惩罚策略来管理这些行为。惩罚策略包括减少非合作决策者在共识过程中的权重,从而降低其对最终决策结果的影响。通过这种方式,我们可以有效地促进群体内部的合作,提高决策效率和决策质量。我们通过仿真实验和对比分析验证了该框架的有效性。实验结果表明,基于历史数据的非合作行为管理框架在识别和管理非合作行为方面显著优于传统的大群体决策框架。具体而言,我们的方法不仅提高了决策的准确性和效率,还在处理非合作行为时表现出更强的鲁棒性。
6.2 展望
对于大群体决策问题,决策者之间的社会关系是可能影响决策结果的重要因素。因此,在大规模社会网络群体决策环境下,建立相应的机制来管理具有历史信息的非合作行为将是一个值得深入研究的课题。具体而言,未来的研究可以探讨以下几个方向:社会网络分析:研究决策者之间的社会关系网络,分析社会关系对决策行为的影响。历史数据整合:结合决策者的历史偏好数据和社会关系信息,开发更加综合的聚类算法。动态管理机制:建立动态的非合作行为管理机制,实时监控和调整决策者的行为,提高决策过程的灵活性和适应性。
综上所述,基于历史数据的非合作行为管理框架在大群体决策中具有显著优势。通过全面利用决策者的历史偏好信息,我们能够更准确地进行聚类和非合作行为管理,提高决策过程的效率和质量。同时,未来在大规模社会网络群体决策环境下,进一步研究和管理非合作行为,将有助于推动大群体决策领域的发展和应用。