机器学习
文章平均质量分 78
少奶奶的猪
python开发,web开发,odoo开发,前端开发,数据库,机器学习
展开
-
ML实战(四)——朴素贝叶斯
1、朴素贝叶斯前两章要求分类器做出艰难决策,给出 “该数据实例属于哪一类”这类问题的明确答案。不过,分类器有时会产生错误结果,这时可以要求 分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。概率论是许多机器学习算法的基础,所以深刻理解这一主题就显得十分重要。第3章(《机器学习实战》学习笔记(三):决策树)在计算特征值取某个值的概率时涉及了一些概率知识,在那里先统计特征在数据集中取...原创 2020-05-05 00:07:28 · 1080 阅读 · 0 评论 -
sklearn.naive_bayes.MultinomialNB()函数解析
除了MultinomialNB之外,还有GaussianNB就是先验为高斯分布的朴素贝叶斯,BernoulliNB就是先验为伯努利分布的朴素贝叶斯。class sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)MultinomialNB假设特征...原创 2020-05-05 00:07:01 · 9087 阅读 · 0 评论 -
sklearn.tree.DecisionTreeClassifier()函数解析
sklearn.tree.DecisionTreeClassifier()函数用于创建一个决策树分类器。class sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, mi...原创 2020-04-02 15:00:20 · 5373 阅读 · 0 评论 -
ML实战(三)——决策树
1、决策树你是否玩过二十个问题的游戏,游戏的规则很简单:参与游戏的一方在脑海里想某个事物,其他参与者向他提问题,只允许提20个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解,逐步缩小待猜测事物的范围。或者是酒桌上的猜数游戏,游戏规则有点类似,参与游戏的一方在脑海里想一个固定的数值,需要在固定的范围内,其他参与者进行猜测,他会先给出猜测的正确与否,如果正确直接喝酒,如果错误,就在下一个...原创 2020-04-01 17:36:39 · 546 阅读 · 0 评论 -
sklearn.neighbors.KNeighborsClassifier()函数解析
sklearn.neighbors.KNeighborsClassifier()函数用于实现k近邻投票算法的分类器。class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’, algorithm=’auto’, leaf_size=30, p=2, m...原创 2020-04-01 15:10:49 · 5139 阅读 · 0 评论 -
ML实战(二)——k-近邻算法
1、k-近邻算法概述简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。k-近邻算法优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数...原创 2020-04-01 15:05:03 · 419 阅读 · 0 评论 -
ML实战(一)——基础知识
1、关键词通过构建下面的鸟类分类系统,来对机器学习领域的常用术语进行一个总结。机器学习的主要任务就是 分类。如何判断飞入进食器的鸟是不是象牙喙啄木鸟呢?(任何发现活的象牙喙啄木鸟的人都可以得到5万美元的奖励。)这个任务就是 分类,有很多机器学习算法非常善于 分类。本例中的类别就是鸟的物种,更具体地说,就是区分是否为象牙喙啄木鸟。我们决定使用某个机器学习算法进行 分类,首先需要做的是算法训练...原创 2020-04-01 14:38:36 · 1319 阅读 · 0 评论 -
《南瓜书pumpkin-book》项目链接
《pumpkin-book》GitHub项目链接:https://github.com/datawhalechina/pumpkin-book在线阅读地址:https://datawhalechina.github.io/pumpkin-book/原创 2020-04-01 10:59:11 · 1989 阅读 · 0 评论 -
ML学习(七)———神经网络(Neural Networks)
前面我们已经讨论过了线性回归和逻辑回归,下面我们将讨论神经网络的机器学习方法,下面我们将介绍为什么要引入神经网络,和引入神经网络的必要性,这一篇我们就初步的了解一下神经网络的基本内容,后面再讨论求解方法。1.非线性假设下面来举例说明一下为什么要引入神经网络,前面我们已经讲到了逻辑回归的分类问题,如下图所示,我们要找到一个非线性的边界决策线,那么这个假设函数就不再是一次的线性的表达式了,他...转载 2020-03-31 21:50:33 · 528 阅读 · 0 评论 -
ML学习(六)———正则化(regularization)
1.过拟合问题在机器学习中,有一个问题可能会出现————过拟合问题,在前面我们已经讨论了线性回归问题和Logistic回归问题,我们都是用函数去拟合曲线,那我们评价拟合效果的时候用的是代价函数,那么对于线性回归是不是全部点都满足函数都认为这个拟合效果很好了?对于逻辑回归是不是把所有的数据集都能分类开就很好了?,下面我们来讨论以下这些问题。线性回归中的过拟合问题:这个例子是我们前面讨论的房...转载 2020-03-31 17:22:02 · 343 阅读 · 0 评论 -
ML学习(五)———Logistic回归
我们开始讨论机器学习的另一个问题,分类问题,分类问题的输出结果是离散的,一般是0/1,有时也有其他的离散值。比如说我们在第一篇笔记中提到的垃圾邮件问题:如何判断一封邮件是有用的邮件还是垃圾邮件;还有判断肿瘤是良性还是恶性的问题等等,这些可以说都是分类问题。下面我们就开始讨论这个问题。1.分类(classification)问题描述:假设有一个肿瘤的良性恶性数据集如下,1代表良性,0代表恶...转载 2020-03-31 16:35:14 · 344 阅读 · 0 评论 -
ML学习(四)———Matlab基础
1.基本操作计算数值>> 5 + 6ans = 11>> 3 * 4ans = 12>> 1/3ans = 0.3333>> 2^6ans = 64计算逻辑值>> 1 == 2ans = 0>> 1 ~= 2 ans = 1>> 1 && 0ans = 0...转载 2020-03-27 21:46:44 · 610 阅读 · 0 评论 -
ML学习(三)———多变量线性回归
上一篇我们讨论了单变量的线性回归问题,题目背景是房子尺寸和价格的关系,但是实际中房价不仅只与房子的尺寸有关,还和房子的楼层,屋子数量,建造时间,所处位置等等有关,所以我们涉及到的是多变量的线性回归问题,下面主要来讨论这一种情况。1.多变量的定义假如现在的房价与四个变量有关,分别是尺寸、房屋数、楼层数、房屋年龄,这些都是特征变量,分别用x1,x2,x3,x4来表示他们,n表示特征变量的...转载 2020-03-23 15:50:35 · 492 阅读 · 0 评论 -
ML学习(二)———梯度下降(Gradient Descent)
1.梯度下降图形解释上一篇已经介绍了代价函数J(θ0,θ1),我们的目的是要求出使代价函数最小的θ0、θ1,那么我们先从三维图像来描述一下梯度下降怎样寻找代价函数的最小值。 这里就是一个J(θ0,θ1)的图像,要找J的最小值,这里假设图像是一座一座山峰,我们就从任意一个点出发,先假设 θ0=0,θ1=0,取得J的值在红色的山上,这时假如我们要快速下山,我们就环顾四周寻找下降最快的方向,向...转载 2020-03-23 11:32:43 · 333 阅读 · 0 评论 -
ML学习(一)———基本概念和代价函数
1.定义机器学习定义Tom Mitchell provides a more modern definition: “A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performanc...转载 2020-03-23 10:59:26 · 506 阅读 · 0 评论 -
机器学习数学知识补习——梯度下降(Gradient Descent)
导数导数与微分:图中的Δy、dy等符号的意义及关系如下:Δx:x的变化量;dx:x的变化量ΔxΔxΔx趋于0时,则记作微元dxdxdx;Δy:Δy=f(x0+Δx)−f(x0)Δy=f(x0+Δx)-f(x0)Δy=f(x0+Δx)−f(x0),是函数的增量;dy:dy=f′(x0)dxdy=f'(x0)dxdy=f′(x0)dx,是切线的增量;当Δx→0时,dy与Δy都是...转载 2020-03-22 17:27:08 · 447 阅读 · 0 评论 -
梯度下降算法推导
原作者: 红色石头|来自: AI有道梯度下降算法的公式非常简单,”沿着梯度的反方向(坡度最陡)“是我们日常经验得到的,其本质的原因到底是什么呢?为什么局部下降最快的方向就是梯度的负方向呢?也许很多朋友还不太清楚。没关系,接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。下山问题假设我们位于黄山的某个山腰处,山势连绵不绝,不知道怎么下山。于是决定走一步算一步,也就是每次沿着当前位...转载 2020-03-22 16:29:57 · 1160 阅读 · 0 评论 -
用 Numba 加速 Python 代码
1、介绍Numba 是 python 的即时(Just-in-time)编译器,即当您调用 python 函数时,您的全部或部分代码就会被转换为“即时”执行的机器码,它将以您的本地机器码速度运行!它由 Anaconda 公司赞助,并得到了许多其他组织的支持。在 Numba 的帮助下,您可以加速所有计算负载比较大的 python 函数(例如循环)。它还支持 numpy 库!所以,您也可以在您的计...转载 2019-07-02 09:41:35 · 873 阅读 · 0 评论 -
xgboost的原理
要想彻底掌握xgboost,就必须搞懂其内部的模型原理。这样才能将各个参数对应到模型内部,进而理解参数的含义,根据需要进行调参。本文的目的就是让大家尽可能轻松地理解其内部原理。主要参考文献是陈天奇的这篇文章introduction to xgboost1、你需要提前掌握的几个知识点1、监督学习监督学习就是训练数据有标签的学习。比如说,我有10万条数据,每个数据有100个特征,还有一个标签。标...转载 2019-06-21 09:53:31 · 189 阅读 · 0 评论