机器学习实战
还迷来
不想成为混子
展开
-
机器学习实践——预测数值型数据:回归
线性回归过程就是:将输入项乘上一些常量,然后再累加起来,就得到预测值。那么如何找到这些常量呢?求解这些回归系数的过程就是回归。根据回归过程,可以得到一般公式: Y = wT*x现在问题是,我们有x的值和y的值,如何求出向量w的值,常用的方法就是是误差最小的 w,所以采用平方误差 对W进行求导,...原创 2019-07-23 16:45:17 · 644 阅读 · 3 评论 -
机器学习实践——Logistic回归
利用Logistic回归进行分类的主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。二值型输出分类器的数学原理:理想的函数是能够接受所有的输入,然后预测出类别。例如两个类的情况下,函数的输出是0或是1,这就需要Sigmoid函数。 因此,为了实现回归分类器,我们可以把每个特征都乘上一个回归系数...原创 2019-07-16 21:57:30 · 460 阅读 · 0 评论 -
机器学习实践——基于单层决策树的AdaBoost算法
背景:集成算法是将相同或不同的分类器组合成为一个强分类的方法,这种组合方法包括自聚汇聚法(bagging),还有boosting方法。我们选用最流行的AdaBoos算法。AdaBoost的运行过程:训练数据集的每一个样本,应赋予一个权重,这些权重构成一个向量D,一开始,这些权重都初始化为相等的值,首先在训练数据集上训练出一个弱分类器并计算该分类器的错误率,然后在同一数据集上再次训练弱分类器,但...原创 2019-07-21 15:13:18 · 1316 阅读 · 0 评论 -
机器学习实践——基于概率论的分类方法:朴素贝叶斯
基于贝叶斯进行分类思想:计算该样本点属于每个标签的概率,选择概率最大的那个标签作为分类结果。首先需要知道贝叶斯条件概率公式: P(A)为先验概率,在B发生之前 A的概率P(A|B)为后验概率,在B发生后A的概率P(B|A)/P(B)为调整因子,用于调整在B发生之后,对P(A)进行调整,P(A)的值是变大了,还是变小...原创 2019-07-25 20:50:35 · 192 阅读 · 0 评论 -
机器学习实践——树回归(CART算法)
背景:线性回归需要拟合所有的数据才能生成模型,但是,当数据拥有众多的特征以及特征之间的关系十分复杂时,这种方法显得太难了。除此之外,实际生活中很多数据都是非线性的,不能使用全局线性模型进行拟合。因此提出树结构与回归法。CART算法称为分类回归树,意味着可以处理分类问题,也可以用于回归问题。对于给定的训练数据集,如果是分类树,CART采用GINI值衡量节点纯度;如果是回归树,采用样本方差衡量节点...原创 2019-08-06 11:38:33 · 1397 阅读 · 1 评论 -
机器学习实践——利用SVD简化数据
SVD(奇异值分解)优点:简化数据,去除噪音,提高算法的结果缺点:数据的转换可能难以理解利用SVD,我们可以使用小得多的数据集来表示原始数据集,这样做实际上是去除了噪声和冗余信息,以此达到了优化数据、提高结果的目的。SVD的应用LSA(隐形语义分析)在LSA中,矩阵是由文档和词语组成的,当我们应用SVD时,就会构建出多个奇异值,这些奇异值就代表了文档中的主题或概念,这一特点...原创 2019-08-08 16:36:44 · 315 阅读 · 0 评论 -
机器学习实践——利用PCA简化数据
什么是降维?降维的目的又是什么?现实世界中的数据往往具有多个特征值,但是在众多特征中起到关键作用的往往只是个别特征,或是特征之间存在着依赖的关系,从众多特征中选取较为重要特征的过程就称之为降维。降维的目的就是对输入数据进行削减,由此剔除数据中的噪音并提高机器学习方法的性能。降维的方法很多,这里介绍应用最为广泛的方法:主成分分析法(PCA)。在PCA中,数据有原来的坐标系转换到新的坐...原创 2019-08-06 21:17:25 · 266 阅读 · 0 评论