2017年08月_来一块提拉米苏

原创 sklearn中的PCA

sklearn中的PCA详见–>http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html导入库from sklearn.decomposition import PCA 参数pca = PCA(n_components=None, copy=True, whiten=False) n_compone

2017-08-23 09:00:05 771

转载随机森林（python版）

随机森林随机森林使用背景 1 随机森林定义 2 随机森林优点 3 随机森林应用范围随机森林方法理论介绍 1 随机森林基本原理 2 随机森林算法 21 决策树 22随机森林 23 随机森林模型的注意点 24随机森林实现过程随机森林应用 1目标 2 准备的数据集 3R 源代码 4 一些重要参数说明 5预测结果随机森林1. 随机森林使用背景1.1 随机森林定义随机森林是一种比较新的机器学习模型。经典

2017-08-21 11:22:44 4007

原创 SVD简化数据

SVD简化数据SVD简化数据引言基础概念 3种相关度以及基于相似度推荐代码基于SVD评分估计代码 SVD应用代码总结 0_5txt数据引言餐馆可分为很多类别，不同的专家对其分类可能有不同依据。实际中，我们可以忘掉专家，从数据着手，可对记录用户关于餐馆观点的数据进行处理，并从中提取出其背后的因素。这些因素可能会与餐馆的类别、烹饪时采用的某个特定配料，或其他任意对象一致。然后，可利用这些因素来估

2017-08-21 08:34:34 406

原创 PCA降维

PCA简化数据PCA简化数据引言基本概念过程原理重要的概率论和线性代数代码详解总结数据最下方没东西了引言不多说了，PCA就是用来降维操作的，将多维数据处理成维数比较少的数据，保留重要特征。基本概念PCA是主要成分分析（Principal component analysis， PCA）。在PAC中数据从原来的坐标系转化到新的坐标系中，新的坐标系的选择是又数据本身决定的。第一个坐标轴的

2017-08-17 11:26:16 1981 1

原创 FP-growth算法高效发现频繁项集

FP-growth算法高效发现频繁项集 FP-growth算法高效发现频繁项集引言基本概念构建FP树挖掘频繁项代码详解总结引言在关联分析中，频繁项集的挖掘最常用到的就是Apriori算法。Apriori算法是一种先产生候选项集再检验是否频繁的“产生-测试”的方法。这种方法有种弊端：当数据集很大的时候，需要不断扫描数据集造成运行效率很低。而FP-Growth算法就很好地解决了这个问题。

2017-08-16 10:06:20 813

原创 Apriori算法进行关联分析

Apriori算法进行关联分析 Apriori算法进行关联分析引言基本概念例子伪代码算法分析代码总结引言关联性在生活中经常被用到，例如超市的商品摆放，牙膏和牙刷放一起，针和线放一块，根据顾客的喜好和习惯尽可能的方便顾客；再例如大型游乐设施附近和儿童玩具、冰激凌、饮料在一起；再例如之前算法岭回归，就是解决复共线性的问题，复共线性就是有关联的特征项。Apriori算法就是用来解决这个问题的

2017-08-15 11:23:07 635

原创 Adaboost算法

Adaboost算法

2017-08-12 15:09:00 616

原创树回归

树回归1、什么是树回归2、优缺点3、树的构建4、树剪枝树回归：线性回归模型需要拟合所有样本（局部加权线性回归除外），当数据拥有众多特征且特征间关系复杂时，构建全局模型就显得太难了。一种可行的方法是将数据集切分成很多份易建模的数据，然后利用线性回归技术建模。如果首次切分后仍难以拟合线性模型就继续切分，在这种切分模式下，树结构和回归法相当有用。 CART（Classification An

2017-08-05 21:52:47 272

原创归一化处理

归一化概念优点方法 1、对于给定的数据在一些的情况下往往会出现这样的问题：在不同评价往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间事物量纲影响，需要进行数据标准化处理，以解决数据指标之间的差异性，原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。 2、优点：（1）、为后面处理数据更方便（2）、保证程序运行时收敛快 3、方法：（1）、new

2017-08-05 21:44:49 1103

原创前向逐步回归

前向逐步回归 1、也是解决和岭回归一样问题的算法。 2、前向逐步回归属于一种贪心算法，即每一步都尽可能减少误差，一开始，所有的权重都是设为1，然后每一步所做的决策时对某个权重增加或减少一个很小的值。 3、伪代码：数据标准化，使其分布满足0均值和单位方差在每轮迭代过程中: 设置当前最小的误差lowestError为正无穷对每一个特征值：增大或减少：

2017-08-02 15:50:02 2772

原创岭回归

岭回归1、解决问题2、原理3、算法4、实现代码5、交叉验证 1、当数据的特征比样本点还要多怎么办？即：n>m。也就是说输入数据的矩阵不是满秩矩阵，非满秩矩阵求逆就会出现问题。——这是《机器学习实战》上的问题除此之外，在其他大佬的博客和研究生论文到看到岭回归是主要解决复共线问题。秩：将矩阵进行行列变换成梯形矩阵，不为0的行（列）的行（列）数称为矩

2017-08-02 15:20:04 2902

转载交叉验证

交叉验证交叉验证原理 1k-cv 2k2-cv 3loocv 410-cv原理交叉验证（Cross validation)，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的

2017-08-02 10:25:39 406

提拉米苏的博客