机器学习
文章平均质量分 53
机器学习是机器根据数据集自主提升性能的技术
太原浪子
这个作者很懒,什么都没留下…
展开
-
机器学习--集成学习(13)
一、基本概念1.1 定义在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成方法是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差(bagging)、偏差(boosting)或改进预测原创 2020-12-03 21:28:08 · 515 阅读 · 0 评论 -
机器学习--聚类(12)
一、基本概念聚类的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中。应用场景:文档分类器、客户分类、保险欺诈检测、 乘车数据分析二、距离计算对于有序距离其中P=1为曼哈顿距离P=2为欧氏距离对于无序距离使用VDM距离:其中 mu,a,i表示在第i个样本簇中属性u上取值为a的样本数mu,a表示属性u上取值为a的样本数k为样本簇数混合距离使用闵科夫斯基距离和VDM的混合其中nc为有序属性个数加权距离根据不同属性的重要性,可使用“加权”距离二、聚类算法原创 2020-12-03 21:27:51 · 826 阅读 · 0 评论 -
机器学习--人脸自动补齐(11)
随机树ExtraTreeRegressor(): 分列点随机选取、不考虑信息增益,减少过拟合获取一个对象所属的类名称: model.class.nameimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline# 导入人脸数据集from sklearn.datasets import fetch_olivetti_faces,fetch原创 2020-12-01 11:37:38 · 343 阅读 · 0 评论 -
机器学习--决策树(10)
一、基本概念1.1 是什么分类决策树模型是一种描述对实例进行分类的树形结构,相当于if-then结构。决策树由节点和有向边构成。节点有两种:一种是内部节点,表示一个特征或者属性;另一种是叶子节点,表示一个决策结果。1.2 优缺点优点:模型具有可读性、分类速度快缺点:容易产生过拟合1.3 决策过程从根节点开始,对实例的某一个属性进行分裂,根据分裂结果将实例分配到其子节点。这时,每一个子节点对应该特征的一个取值,如此递归的对实例进行测试分类,直至到达叶子节点。最后将实例分配到叶节点的类中。可以看原创 2020-11-28 16:23:41 · 2102 阅读 · 1 评论 -
机器学习--文本分析(jieba)(9)
一、jiebajieba分词有三种拆词模式:jieba.cut(cut_all=False) # 精确模式 适用于文本分析(建模)jieba.cut(cut_all=True) # 全模式 适合搜索引擎jieba.cut_for_search() # 搜索引擎模式cut方法拆完是一个生成器对象jieba.lcut(cut_all=False) # 精确模式 适用于文本分析(建模)jieba.lcut(cut_all=True) # 全模式 适合搜索引擎jieba.l原创 2020-11-26 17:21:56 · 630 阅读 · 0 评论 -
机器学习--模型评价和选择(8)
一、基本概念误差(误差期望):学习器的实际预测输出与样本真实输出之间的差异经验误差(训练误差):学习器在训练集上的误差泛化误差:学习器在新样本上的误差过拟合(过配):学习器学习能力过强,将训练集中自身的特点当做所有潜在样本都会由的一般性质,这会导致泛化能力下降。 无法避免,只能缓解欠拟合(欠配):学习器对训练样本的一般性质没有学好二、训练流程2.1 获取测试集测试集应该尽量与训练集互斥当我们只有一个包含m条记录的训练集,需要对训练集进行拆分,拆分方法如下:留出法:① 原理: 即将训练原创 2020-11-25 19:40:18 · 271 阅读 · 0 评论 -
机器学习--多分类任务(7)
一、思想多分类问题还是以二分类为基础,即将多分类任务拆解为多个二分类任务。具体来说就是先对问题进行拆分,然后对每个二分类任务训练一个分类学习器;测试时对这些分类器的预测结果进行汇总,然后得出最终分类结果。二、拆解策略2.1 一对一(OVO)①、流程将N个类别进行两两配对,产生N(N-1)/2 个二分类任务,然后为每一个二分类任务训练一个分类器。测试阶段,分类器将新样本进行预测,得到N(N-1)/2个预测结果,最终结果通过”投票”产生。2.2 一对其余(OVR)①、流程对于由N个类别的样本,原创 2020-11-25 19:39:39 · 532 阅读 · 0 评论 -
机器学习--贝叶斯模型(6)
一、概念及公式1.1 条件概率公式①、 设A、B是两个事件,且P(A)>0,称 P(B|A)=P(AB)/P(A) 为在事件A发生的条件下事件B发生的条件概率。其中P(A|B) = P(B|A)P(A) / P(B) 为贝叶斯公式如果事件B1、B2、B3…Bn 构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有P(A)=P(A|B1)*P(B1) + P(A|B2)*P(B2) + … + P(A|Bn)*P(Bn).为全概率公式1.2 变形得原创 2020-11-25 19:38:42 · 1834 阅读 · 0 评论 -
机器学习---logistic回归(5)
一、广义线性模型①、广义线性模型:将线性回归的假设函数作为自变量映射到另一个函数上即:这样的模型为广义线性回归,其中函数g 为联系函数。②、作用:将分类任务的真实标记y 与线性回归模型的预测值联系起来二、逻辑斯蒂回归虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测。2.1 sigmoid函数①、首先我想到了阶跃函数:但是阶跃函数在0处不连续,且无原创 2020-11-20 17:58:29 · 464 阅读 · 0 评论 -
机器学习--岭回归和Lasso回归(4)
任何数据都存在噪声和多重共线性如何解决多重共线性 ?1.算法角度(正则化)2.数据角度(最有效果)岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合(数据间高度线性相关)以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的,这两种回归均通过在损失函数中引入正则化项来达到目的,具体三者的损失函数对比见下图:其中λ称为正则化参数,如果λ选取过大,会把所有参数θ均最小化,造成欠拟合,如果λ选取过小,会导致对过拟合问题解决不当,因此λ的选取是一个技术活。岭回归与Lasso回原创 2020-11-20 17:44:15 · 1007 阅读 · 0 评论 -
机器学习---普通线性回归模型(3)
线性回归一般分为单变量线性回归和多变量线性回归。对于单变量线性回归,我们要做的就是怎么样通过学习得到一个假设函数(h),从而能给出房子的估值??①、假设函数的一般形式:②、参数③、代价函数:拟合参数的标准,这边为均方误差④、求解代价函数为最小值时的参数而解决最小化问题时,我们引入了 梯度下降算法。梯度算法的思想:开始时我们随机选择一个参数的组合(ø0,ø1,…,øn),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。持续这样做直到找到一个局部最小值(Local Mi原创 2020-11-20 17:43:51 · 1713 阅读 · 0 评论 -
机器学习--K近邻算法(KNN)(2)
一、简介K-Nearest-Neighbor 算法是一种常用的监督学习算法,它没有显式的训练过程,是‘懒惰学习’的显著代表,此类学习算法仅在训练阶段将训练集保存起来,训练时间开销为0,待收到测试样本后在进行处理二、工作机制给定测试样本,基于某种距离度量找出训练集种与其最靠近的k个训练样本,然后基于这k个‘邻居’的信息来进行预测。在分类任务中,可使用“投票法”,即选择这k个样本中出现类别最多的标记作为预测结果;在回归任务中使用“平均法”,将这k个样本的实值输出标记的平均值作为预测结果;还可以基于距离远原创 2020-11-18 09:13:23 · 998 阅读 · 1 评论 -
机器学习基本概念(1)
一、机器学习概念1.1 什么是机器学习机器学习是研究如何通过计算的手段,利用经验来改进系统的性能,而经验往往是指数据。机器学习本质上是一种复杂的算法,它通过在大量的数据中挖掘隐含的信息,从而达到预测输出和分类的目的。1.2 目标通过学习得到的模型,很好的适用于新的样本,这种能力也叫泛化能力。1.3 基本术语数据集:n条记录的集合示例(样本、特征向量):每条记录关于一个事件或者对象的描述 ,即一条记录属性(特征):反映事件或对象在某一方面的表现或者性质的事项,即一个字段属性值:属性的取值属原创 2020-11-13 09:49:50 · 458 阅读 · 0 评论 -
假设检验
import scipy一、卡方检验卡方验证可以解决两组离散变量的相关性, 常用于建模中,研究某个字段是否对离散型的预测目标有影响chi2, p, dof = stats.chi2_contingency(两组数据array)统计量 p值 自由度二、T检验t检验:–用于对各变量系数显著性检验–用于检查假设的期望和抽样的样本期望是否一致–用于小样本判断标准:一般用p值 0.05来衡量小于0.05 显著大于0.05不显著2.1 单样本T检验-ttest_1sampstats.tte原创 2020-11-12 21:57:23 · 942 阅读 · 0 评论 -
参数估计
一、参数估计的一般问题1.1 估计量与估计值估计量:用于估计总体参数的随机变量估计值:估计参数时计算出来的统计量的具体值1.2 点估计和区间估计∙\bullet∙ 点估计:用样本的估计值的某个取值直接作为总体参数的估计值无法给出估计值接近总体参数程度的信息∙\bullet∙ 区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量∙\bullet∙ 置信水平:将构造置信区原创 2020-11-12 21:56:57 · 620 阅读 · 0 评论 -
统计量与抽样分布
一、统计量1.1 统计量统计量:由样本构造的一个函数,且不依赖于任何未知参数。统计量是统计推断的基础次序统计量:样本值有序中位数、分位数、四分位数都是次序统计量二、分布2.1 抽样分布样本统计量的概率分布,是一种理论分布重复选取样本容量为n的样本时,该统计量所有可能的取值形成的相对频数分布样本统计量是随机变量结果来自容量相同的所有可能样本2.2 正态分布∙\bullet∙ 分布函数的概念:函数F(X)= P(X<= x)为X的分布函数,表示随机变量X小于等于x的概率原创 2020-11-12 21:56:37 · 1589 阅读 · 0 评论 -
数据的描述性统计
一、集中趋势的度量集中趋势:1.一组数据向其中心值靠拢的倾向和程度2.测量集中趋势就是寻找数据水平的代表值和中心值3.不同数据类型用不同的集中趋势测量值4.低层次的测量值适用于高层次的测量数据;高层次的测量值不适用于低层次的测量数据1.1 分类数据:众数(M0)1.一组数据中出现次数最多的变量值2.适用于数据较多的情况3.不受极端值影响4.一组数据可能没有众数,也可以有多个众数5.主要用于分类数据,也可以用于数值数据和顺序数据1.2 顺序数据:中位数(Me)和分位数1.排原创 2020-11-12 21:56:11 · 20519 阅读 · 0 评论