机器学习原理
文章平均质量分 87
机器学习原理
樱花的浪漫
梦想还是要有的,更要成为一名不懈追求梦想的人
展开
-
python数据分析实战——kiva贷款数据
导入所使用的的库Plotly中的graph_objs是Plotly下的子模块,用于导入Plotly中所有图像对象,在导入相应的图形对象之后,便可以根据需要呈现的数据和自定义的图形规格参数来定义一个graph对象,再输入plotly.offline.iplot()中进行最终的呈现。数据集概况include=["0"]将所有的指标都展示出来检查缺失值,算出所有缺失值的个数,进行排序,并计算出缺失值比例可以看出,处理tags以外,其他数值的缺失值较少地区与贫困指数数据缺失值较多贷款数据集缺失值较少。...原创 2022-07-23 10:32:18 · 1502 阅读 · 0 评论 -
第16章——西瓜书强化学习
在强化学习中,智能体通过与环境的交互来学习如何做出决策。原创 2024-03-11 17:03:49 · 1023 阅读 · 0 评论 -
人工智能数学基础-线性代数
特征值和特征向量描述了什么?类似于拳击,拳击怎么赢?攻击的方向与力量 ,为什么要进行矩阵分解? 倘若有一个电商的数据,大小为100w*10w,其中绝大多数为0,因此,绝大部分信息都是没有什么用处的。原始矩阵很大,如何缩减矩阵同时保持信息呢?我们这时可以进行矩阵分解,首先从用户的角度,我们用10维的矩阵代表整个商品的特征,构建出一个100w*10矩阵A,然后从商品出发,用10维表示用户的特征,构建出一个10*10w的矩阵,那么如何还原呢?两矩阵相乘就还原原来的矩阵了。基是正交的(即内积为0,或直原创 2022-07-06 21:22:31 · 477 阅读 · 0 评论 -
人工智能数学基础——回归分析
相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法回归分析是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法在对回归分析进行分类时,主要有两种分类方式:根据变量的数目,可以分类一元回归、多元回归根据自变量与因变量的表现形式,分为线性与非线性所以,回归分析包括四个方向:一元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析。回归分析的一般步骤: 因变量(dependent variable):被预测或被解释的变量,用y表示自变量(independent v原创 2022-07-12 15:12:08 · 1579 阅读 · 0 评论 -
人工智能数学基础——假设检验
什么是假设:对总体参数(均值,比例等)的具体数值所作的陈述。比如,我认为新的配方的药效要比原来的更好。什么是假设检验:先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程。比如,上面的假设我是要接受还是拒绝呢。一个概率值,原假设为真时,拒绝原假设的概率,表示为 alpha 常用取值为0.01, 0.05, 0.10当关键词有不得少于/低于的时候用左侧,比如灯泡的使用寿命不得少于/低于700小时时当关键词有不得多于/高于的时候用右侧,比如次品率不得多于/高于5%时单侧检验指按分布的一侧计算显著原创 2022-07-13 15:55:47 · 3468 阅读 · 0 评论 -
人工智能数学基础——概率论
联合概率密度: 其中x是随机变量X取得的值,θ是未知的参数。 是密度函数,表示给定θ下的联合密度函数。 表示在参数θ的下随机变量X取到x的可能性如果有上式成立,则在参数θ1下随机变量X取到x值的可能性大于θ2连续情况下 : 在一次吃鸡比赛中,有两位选手,一个是职业选手,一个是菜鸟路人。 比赛结束后,公布结果有一位选手完成20杀,请问是哪个选手呢? 估计我们都选职业选手, 因为我们会普遍认为概率最大的事件最有可能发生! 连续型样本: 极大似然估计: 对似然函数取对数: 求偏导: 求解原创 2022-07-07 16:48:02 · 1040 阅读 · 0 评论 -
人工智能数学基础——相关分析
相关分析:相关系数:连续变量即数据变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。如“年龄”、“收入”、“成绩”等变量。当两个变量都是正态连续变量,而且两者之间呈线性关系时,通常用Pearson相关系数来衡量协方差:协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度。原创 2022-07-14 16:36:20 · 1021 阅读 · 0 评论 -
人工智能数学基础——方差分析
检验多个总体均值是否相等,通过分析察数据的误差判断各总体均值是否相等。原创 2022-07-15 17:35:00 · 1765 阅读 · 0 评论 -
人工智能数学基础——贝叶斯分析
我们已经知道,贝叶斯分析的结果是后验分布,其包含了在已有数据和模型下,参数的所有信息。我们可以使用PyMC3中的plot_posterior函数对后验分布进行可视化总结,这个函数的核心参数是一个PyMC3的迹和或者一个NumPy的数组,默认情况下,该函数会画出参数的直方图以及分布的均值,此外图像的底端还有一个黑色的粗线用来表示95%HPD区间。...原创 2022-07-17 16:07:56 · 5076 阅读 · 1 评论 -
回归分析代码实现
假设分类变量有4个取值(a,b,c),比如考试成绩有3个等级。那么a就是(1,0,0),b(0,1,0),c(0,0,1),这个时候就需要3个系数β0,β1,β2,也就是β0x0+β1x1+β2x2 数据集简介主要包括3类指标:类别属性连续指标 可以发现 80% 的 normalized losses 是低于200 并且绝大多数低于125.数据严重偏态分布,因此,不适合用平均值来进行填充。一个基本的想法就是用中位数来进行填充,但是我们得来想原创 2022-07-12 17:46:11 · 1976 阅读 · 0 评论 -
人工智能数学基础——聚类分析
难点如何评估,如何调参要得到簇的个数,需要指定K值质心均值,即向量各维取平均即可距离的度量常用欧几里得距离和余弦相似度(先标准化)优化目标。原创 2022-07-16 15:43:41 · 946 阅读 · 0 评论 -
人工智能数学基础——核函数和激活函数
如果我的数据有足够多的可利用的信息,我就能够充分学习这些数据去拟合特定事务的特征了,但是现在如果没有那么多的信息,我们可不可以在数学上进行一些投机呢?比如,我们将数据从低维变换到高维。如下图所示,如果在二维情况下,我们很难通过建模做出分类,因为需要建立一个环去分离数据,但是通过三维变换,我们就能很轻松的用一个平面做出分类。 Linear核函数对数据不做任何变换。 特征已经比较丰富了,样本数据量巨大,需要进行实时得出结果的问题。不需要设置任何参数,直接就可以用了。原创 2022-07-11 19:58:28 · 936 阅读 · 0 评论 -
人工智能数学基础——高等数学
对于,有: 如果函数的增量,与这两点距离的比例存在,则称此为在P点沿着L的方向导数, 为X轴到L的角度示例: 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。 示例:.....................原创 2022-07-03 17:21:46 · 502 阅读 · 0 评论 -
第15章——西瓜书规则学习
序贯覆盖是一种在规则学习中常用的策略,它通过逐步构建规则集来覆盖训练数据中的样本。该策略采用迭代的方式,在序贯覆盖中,可以采用自底向上或自顶向下的方法来构建规则。原创 2024-03-10 16:32:42 · 628 阅读 · 0 评论 -
第14章 西瓜书——概率图模型
在上面这个例子中:状态:晴天,多云,雷雨状态转换概率:三种天气状态间的转换概率初始概率:根据以上条件,可以计算今天(t=1)的天气状况:今天为晴天的概率=初始晴天概率X晴天转晴天概率+初始多云概率X多云转晴天概率+初始雷雨概率X雷雨转晴天概率。原创 2024-03-09 20:07:05 · 911 阅读 · 0 评论 -
13.西瓜书——半监督学习
这种不确定性是有信息量的,因为靠近边界的数据点是模型难以分类的,它们提供了有价值的信息,关于边界实际上可能在哪里,帮助进一步完善模型。通过结合有标签数据和无标签数据,生成式方法能够构建一个更全面的模型,该模型不仅能够对已标记的数据进行分类,还能够对未标记的数据进行预测。在半监督学习的背景下,直推学习可能会利用有标签数据来构建一个初步模型,然后利用该模型对无标签数据进行预测,并根据这些预测来优化模型。然后,根据相似度矩阵和已标记数据的标签信息,算法构建一个图模型,并通过优化目标函数来学习未标记数据的标签。原创 2024-03-08 17:09:36 · 720 阅读 · 0 评论 -
八、西瓜书——计算学习理论
机器学习中的计算学习理论(Computational Learning Theory)是关于通过计算来进行学习的理论,即机器学习的理论基础。它主要分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。 PAC学习原理(Probably Approximately Correct,概率近似正确)是计算学习理论中的一个核心概念。该原理旨在解释为什么一个假设(或模型、函数)在学习了训练样本后,能够在训练样本之外的数据上有效地进行预测。 PAC学习原理的基本思想是:原创 2024-03-07 16:13:17 · 545 阅读 · 0 评论 -
八、西瓜书——特征选择与稀疏学习
对于1个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些属性则可能没什么用,我们将属性称为“特征”(feature),对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(irrelevant feature).进行特征选择的原因:特征选择有两个环节,子集搜索是一种在特征选择中常用的策略,主。原创 2024-03-06 20:06:01 · 954 阅读 · 0 评论 -
七、西瓜书——降维与度量学习
k 近邻(k-Nearest Neighbor,简称 kNN)学习是一种常用的监督学习方法,其工作机制非常简单: 给定测试样本,通常,即选择这k 个样本中出现最多的类别标记作为预测结果;即将这个样本的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大.k 近邻学习有一个明显特点:此类学习技术在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理;原创 2024-03-05 16:58:47 · 724 阅读 · 0 评论 -
六、西瓜书——聚类
层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。作为一家公司的人力资源部经理,你可以把所有的雇员组织成较大的簇,如主管、经理和职员;然后你可以进一步划分为较小的簇,例如,职员簇可以进一步划分为子簇:高级职员,一般职员和实习人员。原创 2024-03-04 18:21:25 · 1587 阅读 · 0 评论 -
五、西瓜书——集成学习
这对“弱学习器”(weak learner)尤为明显因此集成学习的很多理论研究都是针对弱学习器进行的而基学习器有时也被直接称为弱学习器。原创 2024-03-03 16:44:50 · 1089 阅读 · 0 评论 -
四、西瓜书——支持向量机
支持向量机的原理是寻找与支持向量具有最大间隔的划分超平面。支持向量机具有一个重要性质: 训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关. 首先,超平面的方程为: 点到超平面的距离为: 两个异类支持向量到超平面的距离之和为(间隔) 在满足约束条件下最大化间隔: 通过拉格朗日对偶定理可以推出原问题的对偶问题原创 2024-03-02 17:10:35 · 843 阅读 · 0 评论 -
三、西瓜书——神经网络
一、神经元模型一、神经元模型在M-P神经网络模型中,神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接(connection)进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”(activation function)处理以产生神经元的输出.理想中的激活函数是图5.2(a)所示的阶跃函数,它将输入值映射为输出值“0”或“1”,显然“1”对应于神经元兴奋,“0”对应于神经元抑制.然 而,因此实际常用Sigmoid。原创 2024-02-24 15:25:51 · 1005 阅读 · 0 评论 -
二.西瓜书——线性模型、决策树
线性回归”(lion)试图学得一个线性模型以尽可能准确地预测实值输出标记.2.对数几率回归假设我们认为示例所对应的输出标记是在,那就可将输出标记的对数作为线性模型逼近的目标,即由此,引入对数几率回归:称为“几率”(odds),反映了a作为正例的相对可能性.对几率取对数则得到“对数几率”(log odds,亦称logit)3.线性判别分析LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得类样例的投影点尽可能接近异类样例的投影点。原创 2024-02-18 16:27:03 · 1130 阅读 · 0 评论 -
一、西瓜书——绪论
通常假设样本空间中全体样本服从一个未知分布distributionD我们获得的每个样本都是独立地从这个分布上采样获得的即独立同分布independentandidenticallydistributed简称iid一般而言训练样本越多我们得到的关于D的信息。原创 2024-02-11 22:38:46 · 760 阅读 · 0 评论 -
关联规则代码实现
问题:在探究关联规则时,会得到如图所示的一颗树,每棵树都是一种可能,n个物品的关联一共有2^n-1种可能。这无疑是巨大的运算量具体过程为:首先我们遍历一项集,并去掉非频繁集,然后再遍历二巷集,最后,我们再进行一次合并,如图所示,L2的结果有2,3/2,5/3,5,我们就可以合并为(2,3,5)原创 2022-09-26 09:19:53 · 687 阅读 · 0 评论 -
关联规则实战分析
若关联规则X->Y的支持度和置信度分别大于或等于用户指定的最小支持率minsupport和最小置信度minconfidence,则称关联规则X->Y为强关联规则,否则称关联规则X->Y为弱关联规则。如果光考虑支持度support(X>Y), [Beer, Chips] 和 [Beer, Diaper] 都是很频繁的,哪一种组合更相关呢?返回的是各个的指标的数值,可以按照感兴趣的指标排序观察,但具体解释还得参考实际数据的含义。由于数据量比较大,支持度都会比较小,所以选择较小的支持度阈值。原创 2022-09-25 18:11:01 · 2165 阅读 · 0 评论 -
朴素贝叶斯算法代码实现(垃圾邮件检测)
(1)分词首先需要对文本进行分词操作,转换为list,同时词语全部小写,并去除字母数量小于等于2的单词(2)创建语料表对于每一封邮件,我们需要得到每一封邮件出现的词语,即语料表(3)得到词向量首先初始化一个向量,只要对应词在邮件中出现,相应位置置1,于是我们得到了词向量串联起来:首先读取邮件,得到每个邮件的语料表,然后划分训练集和测试集,得到训练集每个邮件的词向量以及类别(垃圾邮件/非垃圾邮件)原创 2022-09-23 22:14:55 · 2423 阅读 · 1 评论 -
神经网络原理及代码实现
机器学习流程:数据获取、特征工程、建立模型、评估与应用特征工程的作用:数据特征决定了模型的上限预处理和特征提取是最核心的算法与参数选择决定了如何逼近这个上限传统特征提取方法:深度学习特征提取方式:2.线性函数从输入-->输出的映射每个类别的得分数学表示:计算方法:多组权重参数构成了决策边界。...原创 2022-08-02 17:36:37 · 1257 阅读 · 0 评论 -
机器学习——支持向量机原理
要解决的问题什么样的决策边界才是最好的呢?决策边界选出来离两个类别的距离最远的决策边界点到平面的距离的计算。原创 2022-07-31 15:30:17 · 753 阅读 · 0 评论 -
机器学习——集成算法原理
堆叠训练多个分类器,将其得到的结果堆叠起来,最后再训练一个模型对前面堆叠的结果进行训练。堆叠在一起确实能使得准确率提升,但是速度是个问题,集成算法是竞赛与论文神器,当我们更关注于结果时不妨来试试!解释如果某一个数据在这次分错了,那么在下一次我就会给它更大的权重。最终的结果每个分类器根据自身的准确性来确定各自的权重,再合体。由于二重随机性,使得每个树基本上都不会一样,最终的结果也会不一样。之所以要进行随机,是要保证泛化能力,如果树都一样,那就没意义了。随机数据采样随机,特征选择随机。...原创 2022-07-31 10:45:56 · 179 阅读 · 0 评论 -
决策树原理及代码实现
树模型。原创 2022-07-29 10:59:10 · 1189 阅读 · 0 评论 -
逻辑回归原理及代码实现
公式自变量取值为任意实数,值域[0,1]解释将任意的输入映射到了[0,1]区间,我们在线性回归中可以得到一个预测值,再将该值映射到Sigmoid函数中这样就完成了由值到概率的转换,也就是分类任务预测函数其中,分类任务整合解释对于二分类任务(0,1),整合后y取0只保留,y取1只保留似然函数对数似然此时应用梯度上升求最大值,引入转换为梯度下降任务求导过程参数更新多分类的softmax。............原创 2022-07-27 16:59:56 · 843 阅读 · 0 评论 -
线性回归原理推导及代码实现
实例数据工资和年龄(2个特征)目标预测银行会贷款给我多少钱(标签)考虑工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢?(参数)X1,X2就是我们的两个特征(年龄,工资)Y是银行最终会借给我们多少钱找到最合适的一条线(想象一个高维)来最好的拟合我们的数据点。.........原创 2022-07-24 16:13:26 · 726 阅读 · 0 评论