机器学习
薛定谔的猫96
2年前端练习生
展开
-
简单易懂的人工智能系列:一元线性回归
简单易懂的人工智能系列:一元线性回归一元线性回归模型在研究某一现象时,主要关心与影响该现象最主要因素关系时,两者有密切联系,但并非一个变量唯一确定另一变量,可以使用一元线性回归模型。一元线性理论回归模型: 由于随机误差的不可消除,我们认为,理论回归模型的期望就是一元线性回归方程:回归方程从平均意义上表...原创 2020-03-12 14:25:40 · 838 阅读 · 0 评论 -
简单易懂的人工智能系列:回归分析
变量之间的非严格函数关系像下图中,变量X,Y是存在严格的函数关系的(y = x + 0.3):而现实世界中,通常是变量X,Y之间存在某种密切的联系,但并非严格的函数关系(非确定关系),如下图:通过接近X,Y之间的函数关系的关系来预测X时Y的取值,就是回归分析。这里的 1.7 就是(误差)回归回归是处理两个或者两个变量以上相互依赖的定量关系的一种统计方法和技术,变...原创 2020-03-11 12:22:15 · 1457 阅读 · 0 评论 -
简单易懂的人工智能系列:假设检验
统计假设检验(Hypothesis Test)统计假设检验(Hypothesis Test):事先对总体的参数或者分布做一个假设,然后基于已有的样本数据去判断这个假设是否合理。即样本和总体假设之间的不同是纯属机会变异(因为随机性误差导致的不同),还是两者确实不同。常用的假设检验的方法有 t-检验法,(卡方检验),F-检验法等基本思想:假设检验的步骤第一步,根据具体的问题,建立假...原创 2020-03-12 14:25:28 · 711 阅读 · 0 评论 -
简单易懂的人工智能系列:偏差、方差与噪声
偏差、方差与噪声偏差(Bias):描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,即在样本上拟合的好不好。方差(Variance):模型每一次输出结果与模型输出期望之间的误差的平方的期望,即模型的稳定性。噪声(Noise):是真实标记与数据集中的实际标记间的偏差。通常是由多种因素综合影响造成的,不可去除。泛化误差组成推导一般由多种因素综合影响的...原创 2020-03-11 12:23:10 · 1650 阅读 · 0 评论 -
简单易懂的人工智能系列:模型选择与评估
机器学习过程中需要从假设空间中(众多模型中)选择最优的假设(最优模型)。那么再模型选择过程中(学习过程)必不可少一些选择标准和评估方法,本文就来捋一捋。模型相关概念各种误差误差(Error):是模型的预测输出值与其真实值之间的差异 ,与错误(mistake)(错误是指由于不遵守测量仪器的使用规则,或读取、记录测量结果时粗心等原因造成的。)不同。训练(Training):通过已知的样...原创 2020-03-12 14:25:18 · 1830 阅读 · 0 评论 -
简单易懂的人工智能系列:机器学习基本概念(二)
经验风险VS 风险函数经验风险(Empirical Risk):损失函数度量了单个样本的预测结果,要想衡量整个训练集的预测值和真实值的差异,将整个训练集所有记录进行一次预测求取损失函数,将所有值累加,即为经验风险。经验风险越小说明模型f(x)对训练集的拟合程度越好。公式为:,经验风险类似为代价函数(Cost Function),作用于整个训练集,是整个样本集的平均误差,对所有损失函数值的平...原创 2020-03-11 12:23:32 · 377 阅读 · 0 评论 -
Go语言高能踩坑记录:信道
使用Go信道,经常会遇到死锁错误,根据我所遇到做了以下整理:fatalerror:allgoroutinesareasleep-deadlock!错误示例一看下面这段代码packagemainimport"fmt"funcmain(){pipline:=make(chanstring)pipline<-"hel...原创 2020-03-10 09:26:22 · 271 阅读 · 0 评论 -
简单易懂的人工智能系列:机器学习基本概念(一)
机器学习流程方法流程以有监督学习为例: 输入数据 ————> 特征工程 ————> 模型训练 ————> 模型部署 ————> 模型应用输入空间与输出空间输入空间(Input Space):将输入的所有可能取值的集合称作输入空间输入空间(Ouput Space):将输出的所有可能取值的集合称作输出空间输入空间和输...原创 2020-03-10 09:25:44 · 1158 阅读 · 1 评论 -
简单易懂的人工智能系列:Boosting(AdaBoost篇)
Boosting是一种与Bagging很类似的技术。Boosting的思路则是采用重赋权(re-weighting)法迭代地训练基分类器,主要思想:每一轮的训练数据样本赋予一个权重,并且每一轮样本的权值分布依赖上一轮的分类结果。 基分类器之间采用序列式的线性加权方式进行组合。从上图我们可以看出boosting的流程,首先使用一个机器学习算法,可以得到一个模型,将这个模型作用域训练样本,...原创 2020-03-10 09:22:03 · 611 阅读 · 0 评论 -
简单易懂的人工智能系列:集成学习Bagging
BaggingBagging(Bootstrapaggregating,引导聚集算法或自举汇聚法),又称装袋算法,最初由Leo Breiman于1996年提出。它是通过结合几个模型降低泛化误差的技术。,也称为bagging方法。Bagging对训练数据采用自举采样(boostrap sampling),即有放回地采样数据,主要思想:主要思想是分别训练几个不同的模型,然后让所有模型表决...原创 2020-03-10 09:21:18 · 773 阅读 · 0 评论 -
简单易懂的人工智能系列:关联规则
关联规则:Association Rule关联规则是反应失误与实物间相互的依存关系和关联性。如果两个或多个事物间存在一定的关联关系,则其中一个事物能够通过其他食物预测到。最常见的场景就是购物篮分析(Market Basket)。通过分析顾客购物篮中的不同商品之间关系,来分析顾客的购买习惯。经典案例就是啤酒和尿布。先看一个栗子,有某超市的购物篮信息,以此分析顾客的购物习惯,制定货物摆放或者捆...原创 2020-03-10 09:20:44 · 819 阅读 · 0 评论 -
简单易懂的人工智能系列:CART算法
C4.5算法前面文章中讲到ID3算法有四个主要的不足,一是不能处理连续特征,第二个就是用信息增益作为标准容易偏向于取值较多的特征,最后两个是缺失值处理的问题和过拟合问题。昆兰在C4.5算法中改进了上述4个问题。改进1:将连续的特征离散化比如 m 个样本的连续特征 A 有 m 个,从小到大排列为\({a_1,a_2,...,a_m}\),则 C4.5 取相邻两样本值的平均数,一共取得m-...原创 2020-03-10 09:19:56 · 273 阅读 · 0 评论 -
简单易懂的人工智能系列:K-means算法
K-Means算法概念k-Mens即K均值聚类,属于划分聚类。其工作原理为根据初始化的聚类中心信息,计算每个样本到这些中心的距离,可以判断每个样本 均归属于某个类簇,更新聚类中心信息,重新计算每个样本到新的聚类中心的距离,重新划分样本到新的聚类中心对应的类中,重复进行,知道满足终止条件如果用数据表达式表示,假设簇划分为,则我们的目标是最小化平方误差E: ...原创 2020-03-10 09:19:11 · 3070 阅读 · 0 评论 -
简单易懂的人工智能系列:决策树之ID3
决策树:构建流程准备工作:明确自变量和因变量,确定信息度量的方式,确定终止条件选择特征:得到当前待处理子集,计算所有特征信息度量,得到当前最佳分类特征创建分支:根据选中特征将当前记录分成不同分支,分支个数取决于算法是否终止:判断是否满足终止条件,满足退出循环,否则继续递归调用生成结果:判断是否需要剪枝,需要则适当修剪,否则为最终结果说明性的栗子:决策树决策树(d...原创 2020-03-10 09:18:13 · 750 阅读 · 0 评论 -
简单易懂的人工智能系列:常见算法介绍
算法算法是利用计算机解决特定问题的处理步骤,是有限操作的集合。说明性的栗子我们以上篇文章提到的机器学习下西洋跳棋为例,其问题描述如下:任务T:下西洋跳棋 性能指标P:赢棋的概率 经验E:和自己对弈 确定的目标函数:V通过将棋盘上的棋子进行评分,并将棋子所在位置和一个目标函数V建立联系,该目标函数的值可以描述当前棋局。在棋子、局面和性能标准 P 之间建立联系,然后就可以将...原创 2020-03-10 09:16:11 · 2595 阅读 · 0 评论 -
简单易懂的人工智能系列:机器学习介绍
云计算我们日常生活中使用的个人计算机,普遍存在资源使用率低的情况(cpu,内存,硬盘等部分处于空闲状态),因此我们可以将这三部分抽象出来,依据不同情况分给特定的对象使用完成相应的任务,来提高资源利用率,这种技术被称为虚拟化,已经比较成熟。而如果这些使用的对象是企业或者机构,设想一下,如果我们的计算机资源处在特定的地点,我们是不是也可以按需组合计算机资源,然后分配给有需求的对象呢?...原创 2020-02-24 23:16:06 · 836 阅读 · 0 评论 -
机器学习数学基础之矩阵求导
搞好和学好机器学习,人工智能必要需要有强大的数学基础,尤其是线性代数相关知识。本文我们来一起梳理认识机器学习中矩阵求导的内容。矩阵求导(Matrix Derivative)也称作矩阵微分(Matrix Differential),在机器学习、图像处理、最优化、人工智能等领域的公式推导中经常用到。究其本质,矩阵的微积分就是对矩阵空间中的多元变量的微积分...转载 2020-01-11 17:10:25 · 367 阅读 · 0 评论 -
机器学习教程之朴素贝叶斯、贝叶斯信念网络
在介绍朴素贝叶斯和贝叶斯信念网络之前,我们首先得知道其中涉及到的相关概念和背景知识。概念和背景知识条件概率条件概率就是指已知事件B发生的条件下,事件A发生的概率(即事件A在事件B发生下的条件概率) ,记为根据上面的Venn 图可以很容易清楚地知道,在事件B发生的情况下,事件A发生的概率等于P(A∩B)除以P(B),所以条件的公式即为:全概率公式出了条件概率之外,还有...转载 2020-01-11 17:08:57 · 1046 阅读 · 0 评论