旋转梅花桩-CSDN博客

原创 MIML（一）：Fast Multi-Instance Multi-label learning

阅读记录（一）：Fast Multi-Instance Multi-label learning阅MIMLfast阅读记录（一）：Fast Multi-Instance Multi-label learning阅一、存在的问题二、解决方法三、MIMLfast算法概述四、算法详解五、实验六、可能的思路来源七、感悟一、存在的问题大多数MIML算法只能解决中等规模的问题，无法解决大规模的问题或者在解决大规模问题的时候需要大量的计算时间。二、解决方法提出了MIMLfast算法三、MIMLfast算法概

2022-03-17 18:54:55 2021 2

原创机器学习之用二分类学习器解决多分类问题

利用二分类学习器解决多分类问题拆分策略（1）一对一拆分阶段，N个类两两配对，共N（N-1)/2个二类任务，学习N(N-1)/2个二分类器。测试阶段，首先将待测样本提交给所有二分类器预测，得到N(N-1)/2个分类结果，然后投票产生最终的分类结果。即被预测最多的类标记作为最终的分类结果。（2）一对其余拆分阶段，分别将原始的N个类别中某一类作为正例，其余类作为反例，学习N个二类分类器测试阶段，将待测样本提交给所有的分类器预测，得到N个分类结果。若仅有一个分类器预测为正类，则对应类别为最终的分类结果

2020-11-16 18:54:47 1998

原创 Weka机器学习-06-关联

关联规则反映了一个对象与其他对象之间的相互依赖关系，如果多个对象之间存在一定的关联关系，那么，其中一个对象就能够通过其他对象进行预测。关联规则通常需要根据覆盖率和准确率进行修剪。覆盖率也称为支持度，支持度计数是应用规则后预测正确的实例的数量，支持度是支持度计数与实例总数的比值。准确率也成为置信度，表示支持度计数与应用规则的实例数量的比值。由于仅对高覆盖量的关联规则感兴趣，因此关联只寻找能够达到预定的最小覆盖量的属性值对组合，这些组合称为项集，其中的人一个属性值对称为一个项。Weka使用Associat

2020-11-06 14:06:10 1306

原创 weka机器学习-05-聚类

Weka中使用Cluster标签页来处理聚类问题。页面中各项的使用方法与Classify几乎一样。不同之处：（1）Cluster标签页左侧Clusterer mode（聚类器模式）选项组中Classes to clusters evaluation（类别作为簇的评估准则）：比较所选择的簇与预先指定的数据类别的匹配程度。选项下方有一个下拉列表框，其操作与Classify标签页选择类别属性的操作一样。Store clusters for visualization（可视化保存簇）：选中此复选框，在训练

2020-11-06 13:33:54 805

原创 weka机器学习-04-分类

分类是预测离散的值回归是预测连续的值1.分类器的选择Weka提供Classify标签页来构建分类器。Classify标签页最上面有Classifier（分类器）选项组，使用方法和Preprocess标签页Filter（过滤器）选项组一直，详情见上一篇博客。过滤器选项组使用方法Classify标签页左部有Test options（测试选项）选项组。用于设置测试模式，并将设置的选项应用到当前选择的分类器中，测试模式有：（1）Use training set（使用训练集）：直接将训练集实例用于测试（

2020-11-06 12:57:24 2749 1

原创 weka机器学习-03-探索者（Explorer）界面及数据预处理

点击主界面的Explorer按钮后，显示界面Explorer界面：初始打开时，只有Preprocess标签可以用1.各个标签用途（1）Preprocess（预处理）：选择数据集，以不同方式对其进行修改。（2）Classify（分类）：训练用于分类或回归的学习方案，并对其进行评估。（3）Cluster（聚类）：学习数据集聚类方案。（4）Associate（关联）：学习数据关联规则，并对齐进行评估。（5）Select attributes（选择属性）：选择数据集中预测效果最好的部分属性。（6）

2020-11-04 20:52:37 3346

原创 weka机器学习-02-weka初步使用

weka主界面如下：1.Program（编排）菜单（1）LogWindow（日志窗口）：打开一个记录输出到stdout或stderr内容的日志窗口。windows环境下，如果以不带控制台输出的方式启动，日志窗口比较游泳。（2）Memory usage（内存使用情况）：打开一个显示内存使用情况的窗口，如果用户发现内存占用过大，可单击窗口右边的GC按钮，启动垃圾回收器。（3）Exit（退出）：关闭WeKa2.Visualization（可视化）菜单（1）Plot（散点图）：画出数据集的二维散点图；

2020-11-02 20:33:13 2417

原创 weka机器学习-01-weka简介及基本概念

1.weka主界面各个功能键概述Explorer（探索者）：最容易使用的图形用户界面，通过菜单和填写表单可以调用weka的所有功能。缺陷：要求将所需数据全部依次读进内存，一旦用户打开某个数据集，就会批量读取全部数据。因此，这种批量方式仅适合处理中小规模问题。KnowledgeFlow（知识流）：可以使用增量方式的算法来处理大规模的数据集，无需一次性全部导入。Experimenter（实验者）：对于一个已知问题，哪种方法及参数值能够取得最佳效果。即可以用于进行多种算法性能的比较。2.基本概念2.

2020-11-02 19:24:51 3502

原创机器学习-02-评估指标

机器学习评估指标准确率（Accuracy）Accuracy=分对的样本/所有样本错误率错误率=分错的样本/所有样本但是由于这两种评价方法将正类和负类看的同等重要不适合用来分析不平衡的数据集，而查准率即精确率、查全率（召回率）更加适合于不平衡的数据集。1.混淆矩阵真正类率（True Positive Rate） TPR = TP/(TP+FN)，即被预测为正类的正实例占实际正类的比例。假正类率（False Positive Rate） FPR = FP/(FP+TN),即被预测为正类的负实例

2020-10-30 19:09:24 758

原创机器学习-01-数据集划分方法

**机器学习数据集划分方法**1.留出法直接将数据集划分为两个互斥结合，训练集和测试集划分要尽可能保持数据分布的一致性。一般进行若干次随即划分、重复实验，取平均值。优点：准确，不受数据集划分的影响。缺点：数据集较大时一般难以忍受2.交叉验证法将数据集分层采样，划分为k个大小相等或相似的互斥的子集，每次使用k-1个的并集作为训练集，剩余的作为测试集，最后返回k个测试的结果的均值（k一般为10）通常使用k种不同的划分方法重复p次，取平均值得到结果。3.自助法以自助采样为基础，对数据集D有

2020-10-30 18:03:36 912

fxqwgdddg123的博客