数据挖掘学习笔记

最新推荐文章于 2024-09-16 21:19:24 发布

Ni2cole

最新推荐文章于 2024-09-16 21:19:24 发布

阅读量286

点赞数

文章标签：数据挖掘优化算法决策树分类建模

本文链接：https://blog.csdn.net/Ni2cole/article/details/102744961

版权

本周周三周四两天主要完成对数据挖掘ppt的大致浏览和对文章Evolutionary many-objective optimization for mixed-model disassembly line balancing with multi-robotic workstations引言部分的浏览。
一．数据挖掘主要是在将数据变成一种模型时的技术。如下图1所示。
在这里插入图片描述图1 数据变化环节
　　我们所得到的模型要求，应为容易理解、能够从已有数据迁移到新数据中使用。
　　其中是模型挖掘主要有两种方法：分类（对离散数据）和预测（对连续数据）。我们DM的算法有：决策树算法、集成学习算法（个人浅显的把这当做是多棵树的算法）、人工神经网络算法、支持向量机算法、传统算法等。
　　我相对细致的了解了分类方法和决策树算法。
　　分类，分为建模过程和使用模型阶段。
　　建模阶段：1.选好训练集 2.构造模型，应含有分类规则，决策树或者数学公式。
　　使用模型阶段：1.测试所得到的分类规则，将预期结果与实验结果对比，得到准确度2.准确度比较好的情况下，就可以对新数据分类了。
在这里插入图片描述建模阶段
使用模型阶段
　　Classifier就是我们的分类算法。我们评价分类好坏常常用准确度、速度、鲁棒性和交互性来评价。
　　
决策树，如上图所示。
最大高度=决策属性的个数——>树越矮越好
最主要的问题是如何选择判断的次序？
还有问题比如什么时候是最佳分离点？如何避免无效信息？
找寻判断次序可以用算法1、2、3。
算法1.ID3 使用信息增益Gain(A)=Info(D)-〖Info(D)〗_A表示划分A我们所得到的信息量。越大表示越好。
算法2.C4.5主要是在ID3的基础上解决〖Info(D)〗_A中纯度过高的问题，以此来避免一些无效信息将〖Info(D)〗_A替换为Split〖Info(D)〗_A，通过计算GainRate(A)的值越高，表示越重要，应该往根的地方放置。
算法3.CART算法用Gini index来解决训练组的不纯性的问题
我们也常常用树减枝的方法来剪掉一些多余的复杂分支，一次来简化优化算法。
二．多机器人工作站混合模型拆线平衡的进化多目标优化算法，在摘要和引言阶段主要讲述了实验的目的、优势和创新突破点。目的主要是为了使作业的周期时间、总能量的消耗、总工作站台的峰值消耗、使用的机器人数最少。文章基于8个产品模型，63个问题案例，而提出了自己的算法，并与3类多目标问题中的5种算法进行了比较。与前人不同，实验将混合模型与机器人工作站结合起来，采用了TAOG而不是拆卸与或图来完成建模任务的优先关系。并且使用了并行拆卸的方法来提高生产效率。
同时了解了优化算法。由最经典的坐飞机路线问题了解了贪心的算法爬山算法、SA算法。文章所采用的是EA进化算法。为了解决多目标DLBP由于帕累托优势而出现的选择问题和保存多样性的问题，采用融合非帕累托进化和帕累托进化可以解决在目标趋同和多样性间取得较好的平衡点。在这里插入图片描述