【机器学习】
文章平均质量分 83
五月槐花儿香
你就是你!
展开
-
【机器学习】朴素贝叶斯-条件概率
朴素贝叶斯是基于概率论的分类方法,主要步骤是: 1.利用Python的文本处理能力,将文档切分成词向量 2.从词向量计算概率,得到分类器 3.优化分类器 4.通过分类器进行分类 其中,计算概率是很关键的步骤,包括计算条件概率,下面总结一下关于条件概率的内容。 我们来举个小球的例子:现在有7个球如下图所示放在2个原创 2018-01-15 17:35:30 · 4298 阅读 · 0 评论 -
【机器学习】梯度下降--常用的无约束最优化方法
参考文章: L1范数与L2范数的区别 https://blog.csdn.net/pan060757/article/details/73321681 L0与L1与L2范数,宏观 https://blog.csdn.net/zouxy09/article/details/24971995 L1与L2范数的作用...原创 2018-11-08 21:25:58 · 1759 阅读 · 2 评论 -
【机器学习】欠拟合与过拟合的解决方法
下面这张经典的图展示了欠拟合(第一个)与过拟合(第三个)。 欠拟合模型在训练集上学习的不够好,经验误差大,称为欠拟合。模型训练完成后,用训练数据进行测试,如果错误率高,我们就很容易发现模型还是欠拟合的。解决办法: 增加训练次数。添加其他特征项,例如,组合特征、泛化特征、相关性特征。添加多项式特征,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。减少正则化参数,正则...原创 2018-09-10 20:55:05 · 2617 阅读 · 1 评论 -
【机器学习】逻辑回归过程推导
目录: 一、LR的基本原理。 二、LR的具体过程,包括:选取预测函数,求解Cost函数和J(θ),梯度下降法求J(θ)的最小值。 三、对《机器学习实战》中给出的实现代码进行了分析,对阅读该书LR部分遇到的疑惑进行了解释。比如:一般都是用梯度下降法求损失函数的最小值,为何这里用梯度上升法呢?书中说用梯度上升法,为何代码实现时没见到求梯度的代码呢?一、LR的基本原理 Logistic Re...转载 2018-09-10 17:55:59 · 3209 阅读 · 0 评论 -
【机器学习】生成模型和判别模型
定义: 生成方法由数据学习联合概率分布P(x, y),然后求出条件概率分布P(y|x)作为预测的模型。 包括朴素贝叶斯,贝叶斯网络,高斯混合模型,隐马尔科夫模型等。判别方法由数据直接学习决策函数y = f(x) 或者条件概率分布P(y|x) 作为预测的模型。 包括K近邻,感知机,决策树,逻辑回归,提升方法,支持向量机和条件随机场等。对比: 生成模型能反映数据之间的关...原创 2018-09-11 21:36:13 · 590 阅读 · 1 评论 -
【数学】从鸡兔同笼谈数学思维
“今有雉(鸡)兔同笼,上有三十五头,下有九十四足。问雉兔各几何。” “鸡兔同笼问题”是我国古算书《孙子算经》中著名的数学问题,意思是:有若干只鸡和兔在同个笼子里,从上面数,有35个头;从下面数,有94只脚。求笼中各有几只鸡和兔? 如果看到这道题的你,首先想到的是二元一次方程,那么我觉得你有读下去的必要……如果你问兔子和鸡分别都有几只脚,那么欢迎你去瞅瞅,哈哈。1.列表法...原创 2018-05-08 14:13:49 · 2923 阅读 · 0 评论 -
【机器学习】特征工程
“数据和特征工程决定了模型的上限,改进算法只不过是逼近这个上限而已。” 可见,数据是本质,而特征工程具有洪荒之力,它的目的就是竭尽所能地从数据中提取特征,在配合算法的情况下获得最好的模型,所以,说白了,特征工程就是处理样本数据,样本数据有的也就是那些样本的特征了,所以无论是横向还是纵向,单个还是多个,增加还是减少,多维度、多方法地使得数据更好地为我们所用。 特...原创 2018-05-14 18:09:35 · 439 阅读 · 0 评论 -
【机器学习】朴素贝叶斯-贝叶斯公式
曾以为数理是这世上最绝对、最客观、最远离哲学的,慢慢地我发现其实他们是最不绝对、最不客观、最含有哲学意味儿的。这个看法改变的过程,其实是对世界深度认知的过程,在感性与理性中探索有限与无限。感触有点深,主要是最近对概率统计以及微积分的学习与研究,让我知道那些公式背后都有一些难以跨过的坎。今天不感慨,整理一下几个月前看贝叶斯公式的思路。 之前介绍条件概率的时候,写的贝叶斯公式...原创 2018-04-16 15:20:16 · 1084 阅读 · 0 评论 -
【机器学习】Kaggle项目中遇到的问题与解决方案
原来写的都是.py的Python代码,到了kaggle中发现所有项目的code部分都是下图这样的,有点迷糊,后来发现notebook真是个好东西。 问题1.下载了源码,源码文件扩展名是.ipynb,该如何看?解决方案:因之前安装了Anaconda,所以在开始菜单搜索Anaconda Prompt,在弹出的命令窗口输入jupyternotebook,浏览器打开jupyt...原创 2018-02-05 15:07:23 · 3822 阅读 · 0 评论 -
【机器学习】监督学习:分类和回归
有没有想过为什么监督学习中“分类”占了一大半? 监督学习是指有目标变量或预测目标的机器学习方法,包括分类和回归。对于分类来说,目标变量是样本所属的类别,在样本数据中,包含每一个样本的特征,如花朵颜色、花瓣大小,也包含这个样本属于什么类别,它是向日葵还是菊花,而这个类别就是目标变量。分类就是根据样本特征对样本进行类别判定的过程。对于回归来说,回归就是为了预测,比如预测北京的房价,每一套房源...原创 2018-02-01 14:46:38 · 14621 阅读 · 2 评论 -
【机器学习】朴素贝叶斯-对文档进行分类
上一篇文章【机器学习】朴素贝叶斯-条件概率 已经提过了利用朴素贝叶斯进行文档分类的步骤,下面我们来看每个步骤的目的,搞清楚我们要处理的数据满足什么条件,是什么格式,我们所写的每一个函数的入参是什么,处理完成后的出参,即处理结果是什么样的,又是如何将计算的条件概率应用于贝叶斯公式,得到文档所属的类型。 一篇文档属于侮辱性文档还是非侮辱性文档,是根据文档内容判断的,文档由单词构成原创 2018-01-16 17:35:28 · 2014 阅读 · 2 评论