1. 基础概念
(1) 10折交叉验证(10-fold cross-validation)
用来测试算法的准确性。常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据集,1份作为测试数据,进行试验,每次试验都会得到相应的正确率(或差错率)。10次结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,再求平均值,对算法的准确性进行估计。
(2)PCA主成分分析
优点:降低数据的复杂性,识别最重要的多个特征。
缺点:不一定需要,且可能损失有用的信息。
适用类型:数值型数据
技术类型:降维技术
在PCA中,数据从原来的坐标系转换到新的坐标系,新坐标系的选择是由数据本身决定的,第一个新坐标轴选择原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。会发现大部分方差都包含在最前面的几个新坐标轴中。因此可以忽略余下的坐标轴,即对数据进行了降维处理。除了PCA主成分分析技术,其他的降维技术还有ICA(独立成分分析),因子分析。
(3)分类器组合:将不同的分类器组合起来,而这种组合结果则被称为集成方法(ensemble method),或者元算法(meta-algorithm)。
(4)回归算法和分类算法很像,但是回归算法和分类算法在输出标称类别值不同,回归方法会预测出一个连续的值,分类只能预测类别。
(5)SVD(singular value decomposition) 奇异值分解
优点:简化数据,去除噪声,提高算法的结果
缺点:数据转化可能难以理解
使用数据类型:数值型数据
SVD是矩阵分解的一种数据类型。SVD是一种强大的降维工具,我们可以利用SVD来逼近矩阵并从中提取重要特征。通过保留矩阵80%~90%的能量,就可以得到重要的特征并去掉噪声。SVD已经运用到多个应用中,其中一个成功的应用案例就是推荐引擎。推荐引擎将物品推荐给用户,协同过滤则是一种基于用户喜好和行为数据的推荐和实现方法。协同过滤的核心是相似度计算方法,有很多相似度计算方法都可以应用于计算物品壶用户之间的相似度。通过在低位空间计算相似度,SVD提高了推荐引擎的效果。
(9)共线性
是指线性回归模型中的解释变量之间犹豫存在精确的相关关系或者高度相关关系而使模型估计失真或难以估计。
2. 基础算法
(1)logistic回归
优点:计算代价不高,易于理解和实现
缺点:容易欠拟合,分类精度可能不高
适用数据类型: 数值型和标称型数据
类别:分类算法
使用场景:解决二分类问题
Logistic回归算法基于Sigmoid函数,或者说Sigmoid就是逻辑回归函数。Sigmoid函数定义如下:1/(1+exp(-z))。函数值域范围是(0,1)。
逻辑回归模型分解如下:
(1)首先将不同维度属性值和对应的一组权重加和:公式如下
z=w0+w1*x1+...+wm*xm。(x1,x2,..,xm是样本数据的各个特征,维度为m)。这里是一个线型回归。w权重值就是需要经过训练学习得到的数值,具体w向量的求解,就需要用到极大似然估计和将似然估计函数带去到优化算法来求解。最常用的最优化算法有 梯度上升法。由此可见,逻辑回归函数虽然是一个非线性的函数,但其实其去除Sigmoid映射函数之后,其他步骤都和线型回归一致。
(2)然后将上述的线性目标函数z带入到Sigmoid逻辑回归函数,可以得到值域为(0,0.5)和(0.5,1)两类之。等于0.5的处理可以自己定。这样其实就得到了2分类数据,也体现了2分类的概念。
logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,参数在求解过程中可以有最优化算法来完成。在最有化算法,最常用的就是梯度上升法,该算法可以简化为随机梯度上升法。
(2)SVM(soupport vector machine)支持向量机
优点:泛化错误率第,计算开销不打,结果易解释
缺点:对参数调节和核函数的选择敏感,原始分类器不加修饰仅适用于处理二分类问题
适用数据类型: 数值型和标称型数据
类别:分类算法
使用场景:解决二分类问题
(3)决策树
优点:计算复杂度不高,输出结果易于理解,对中间值的确实不敏感,可以处理不相关的特征数据。
缺点:可能会产生匹配过度的问题。
算法类型:分类算法
数据要求:树的构造只适用于标称型的数据,数值型的数据必须离散化
在构造决策树时,需要解决的第一个问题就是,当前数据集上那个儿疼正在划分数据分类时起决定性作用。
决策树生成步骤简述如下(也有别的生成决策树的步骤):
a. 根据给定的训练数据根据熵最大原则根据每一个维度来划分数据集,找到最关键的维度。
b.当某个分之下所有的数据都属于同一分类规则终止划分并返回类标签,否则在此分支上重复实施过程a
c.以此计算就将类标签构建成了一颗决策树
d.依靠训练数据构造了决策树之后,就可以将它用于实际的数据分类。
(4)朴素贝叶斯
- 每个特征之间相互独立
- 每个特征同等重要
(5)K-近邻算法(KNN)
优点:精度高,对异常值不敏感,五数据输入假定
缺点:计算复杂度高,空间复杂度高
适用数据类型:标称型数据和数值型
算法分类:分类算法
算法原理简述:存在一个样本数据集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征和样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签。一般来说,只选择样本数据集中前k个最相似的数据,这就是k-近邻算法只能够k的出处,通常k是不大于20 的证书。最后选择k个最相似数据中出现的次数最多的分类,作为新的数据分类。
(6)线型回归(Linear Regression)
总结:与分类一样,回归也是预测目标值的过程。回归于分类的不同点在于,前者预测连续型变量,后者预测离散变量。在回归方程里,求得特征对应的最佳回归系统的方法是最小化误差的平方和。
(7)树回归
优点:可以对复杂和非线性的数据建模
缺点:结果不易理解
适用数据类型:标称型数据和数值型
(8)K-Means算法
(9)算法关联分析
Aprior算法:
FP-growth