经常写博客-CSDN博客

原创利用PCA来降维

利用PCA来降维1.为什么要降维？降低算法开销去除噪声因此常常作为预处理阶段，但并不是所有都需要经过降维处理2.三大降维技术简介？1. 独立成分分析/ICA假设：数据是从N个数据源中产生，这些数据源之间在统计关系是相互独立的。算法核心：数据源的数目少于观察数据的数目个人理解：这里假设数据从数据源产生，将非数据源视为杂质，而达到降维2. 因子分析假设：观察的数据...

2019-06-18 16:45:17 314

原创 5.8评估数值衡量指标几种数值误差的计算方式

评估数值预测1.几种误差的计算方式2.几种常见衡量方式优缺点对比均方误差衡量方式特点均方误差趋向夸大平均绝对误差对所有错误，根据大小公平对待均方误差趋向夸大...

2019-06-17 13:09:05 2044

原创 5.7计算成本---成本敏感分类上升图 ROC曲线反馈率-精确率

1.成本敏感分类1.适用情况不同类的预测错误成本不同2. 如何使用s1.建立成本矩阵如下，由于主对角线表示预测正确，因此成本为0.其他地方的成本依靠具体情况而定，这里我们设置都为1.s2.在预测的时候我们与概率向量相乘，选择期望成本最低的预测3. 何时使用依具体情况，合适的成本矩阵且在合适时候使用将提升效果在训练时忽略，预测阶段考虑在预测阶段忽略，训练阶段考虑都考虑2...

2019-06-17 12:36:03 1342

原创 5.6二次损失函数和信息损失函数

预测概率1.二次损失函数公式如下跟误差平方最小化一样的地位2.信息损失函数公式取负值因为p在0-1之间3.对比二次函数温和，因为他考虑的是总的预测类别的概率信息损失函数暴力...

2019-06-16 19:40:25 1371

原创 5.4.2适用于小数据集预估的方法：自引导法

自引导法（又叫0.632自引导）1.适用情况特别适用于数据量少的情况2.思想一个实例一旦被选择一次，就不能再次被选择由于自引导的训练集只有63%因此误差率不准解决方法，重新定义误差为3.优点对于小数据来说，自引导法算是最好的一种评估方式了...

2019-06-16 17:07:18 568

原创 5.3交叉验证

交叉验证1.动机不确定测试集是否具有代表性2.怎么做以10折交叉验证为例：s1.确定K数，训练次数10（因此我们会训练100次）s2.将数据大致分为10份（不必严格每份数量相同）,将1份作为测试集，9份为训练集。3.缺点计算成本高...

2019-06-16 16:28:55 416

原创 5.2基于统计学的评价指标

基于统计学的评价指标1.适用情况任何数据集（不管平衡还是不平衡）2.如何计算主要思想是基于正太分布计算的

2019-06-16 16:06:45 1103

原创 4.8聚类

聚类1.表示聚类结果的方法1.一个实例可以落入一个组2.一个实例可以落入多个组3.一个实例可以部分分到其他组（概率）2.基于距离1.代表K-means2.k-means改进动机一：速度慢将数据集投影，按照选定的轴进行分裂，来取代由选择最近的聚类中心所意味着使用的任意超平面分裂法。该方法会由于降维破坏数据Kd树/球树（有效）Q:做法A：创建一个kd树/球树，在聚...

2019-06-16 15:26:52 175

原创 4.7基于实例的学习

1.特性k-means在k/n->0时效果更显著，但是这必然带来巨大计算量，使用kd树能缓建情况。归类到实例空间受控于实例与实例之间距离2.距离衡量1. 数值型1.1 处理方式：归一化1.2 采用距离公式* 欧几里得* 曼哈顿* city-block* …2. 名词性属性1.1 处理方式：1.2 无需量度尺寸3.KD树1.KD树结构长什么样？K指K个属...

2019-06-16 14:45:33 406

原创 4.6线性回归

1.特性适用于预测数值型2.代表logistic回归感知器线性分类logistic回归使用sigmoid感知器线性分类svm通过加权分类winnnow线性分类3.winnnow线性分类不平衡winnow：以二类算法（即属性值为0或1）为例：初始化一个a、theta（a>1)，（相当于奖励项）w，w为数值如果属性值为0权值不变，因为他们没有参与决...

2019-06-16 13:23:17 190

原创第四章算法：基础方法挖掘关联规则

4.5挖掘关联规则1.适用数据类型不同属性子集存在依赖性2.代表Aprior算法3.有效建立规则分为两个阶段：1.产生达到指定最小覆盖量的项集产生所有能达到给定最小覆盖量的单项集利用单项集产生二项集、三项集等等。每一步都要对整个数据集访问一遍，统计项集的数量2.从每一个项集找出能够达到指定最小正确率的规则...

2019-06-16 12:38:59 263

原创第四章算法：基础方法覆盖算法

手写笔记太累了，打字轻松点4.4 覆盖算法：建立规则1.适用情况？存在独立规则，能够将实例划分到不同的类2.覆盖算法？for 单个类 in 所有类：PRISM：找到最合适方法3.PRISM？感觉书上没把这里讲明白5.覆盖算法与决策树区别覆盖算法决策树选择结点上只考虑一个类别考虑两个类别算法优化集中处理一个类别考虑所有类别属...

2019-06-15 23:01:34 3494