2016年11月_我很平凡的

12月 11月

原创机器学习过拟合问题

在机器学习的过程中，经常会出现过拟合导致算法性能下降的问题。那么，什么是过拟合，导致过拟合问题的原因与解决过拟合问题的方法都有那些呢？在此，做个简短总结。 1、什么是过拟合欠拟合是指模型没有能够很好的表现数据的结构，而出现的拟合度不高的情况。过拟合是指模型过分的拟合训练样本，但对测试样本预测准确率不高的情况，也就是说模型泛化能力很差。如下图所示： 2、过拟合的原因（1）数据特征的

2016-11-29 18:03:32 1064

原创数据挖掘：属性

数据对数据挖掘是至关重要的，只有充分认识数据才能选择合适的挖掘方法，进而得到不错的挖掘效果。 1、属性与度量[详细内容参考《introduction to data mining》] 属性是对象的特性，它因对象而异，或随时间而变化。测量标度是将数值与符号值与对象属性相关联的规则。属性与属性值是不一样的，例如用户的ID属性用整数表示，ID属性是没有加减操作的，而ID属性值是可以加减的，但这种操作是

2016-11-27 16:34:29 1696

原创机器学习 hard concepts 特征构建(feature construction)

最近在看关于特征构建的文章，在此做下学习记录。接下来的关于特征构建的博文将按[1]的过程进行记录，并在记录的过程中补充涉及特征构建的其他文献。谈到特征构建，我们就会问什么是特征构建、为什么进行特征构建。下面首先回答为什么要做特征构建。1、为什么要进行特征构建首先，对术语进行相关说明。 selective induction (SI)：SI假设具有相似属性的instance具

2016-11-19 16:41:24 3666

原创机器学习&数据挖掘：特征选择之 wrapper approach

在前面简要介绍了特征选择的Filter方法，由于Filter方法还有很多，在此不能一一介绍。Filter方法从原始特征中选择特征子集，用于后续的机器学习算法。由于Filter在特征选择时，没有考虑到所用的机器学习算法模型，可能会导致选择出的特征子集不适合后续的学习算法从而影响性能（这里指准确率）。因此，wrapper方法结合后续的机器学习算法，选择出能使最终的算法达到较高性能的特征子集。wrappe

2016-11-18 16:16:52 15213

原创机器学习&数据挖掘：特征选择之Filter ： Focus Approach

Focus Approach[1]方法是基于穷举搜索的Filter方法，该方法倾向于选择能够区分样本的最小特征子集。Focus Approach特征选择的度量是一致性度量。通俗来说，特征选择的一致性是：给定两个样本，若它们在特征x1与x2的取值一样但这两个样本不属于同一类别，则特征子集{x1，x2}不是最终要选择的特征子集。 Focus Approach的步骤如图所示: 可以看出，Fo

2016-11-14 18:30:47 3122

原创机器学习：特征选择之 Filter ：Relief方法

Relief特征选择方法是一种filter方法。filter方法的过程如下：下面结合论文[1]谈下Relief算法。该算法的流程如下图：其中第一个参数S是训练集，第二个m是S的大小，第三个t为相关判定阈值，0<=t<=1. 1、Relief认为什么样的特征是相关的那，换句话说什么样的特征对类别具有区分性那？以二分类为例，如果一个特征对区分0/1是有帮助的，那么该特征的分布应该不

2016-11-14 16:30:48 6268

原创机器学习特征选择笔记前言

最近学习特征选择，在此记录下学习过程，一是为加强理解，一是为学习交流。本人能力有限，望多多指教。特征选择前言什么是特征选择：本系列学习笔记所说的特征选择是指从已有特征中选择部分特征用以机器学习、数据挖掘，不涉及新特征的构建。特征选择的意义：有很多资料对特征选择的意义作了总结，不在赘述。在此举例说明下特征选择对算法的影响。在某些情况下，不相关特征对c4.5算法影响很大

2016-11-10 16:56:21 946 1