机器学习
文章平均质量分 56
JasonKQLin
我欲仁,斯仁至矣!
展开
-
最大似然估计(Maximum Likelihood Estimation)
如果我们拿到一组值,不知道这组值对应的分布的参数,甚至都不知道这组值服从何种分布,我们推测可能分布的参数,我们给这个参数取不同的值,计算这些点发生概率的乘积,这就是似然。我们要找到概率最大时(即最大似然)对应的参数值,此时的参数值最有可能是真实分布的参数值。在某个分布的参数已知的情况下,计算某个值(或一组值、一个区间)出现的概率,概率是用原因推测结果,给定某个分布,理论情况下事件发生的频率跟我们计算出来的概率是一样的。原创 2023-06-28 00:37:31 · 347 阅读 · 0 评论 -
感知机介绍
Note:<>在数学中通常指求期望的意思。假设我们用感知机区分cat和dog,使用下面三个特征:x1: color of hair;cat 用+1表示,dog用-1表示(对应到σx\sigma(x)σx函数的话,当函数结果为1时,判定为cat,为0时,判定为dog)。三个特征对应有三个权重w1, w2, w3。原创 2023-05-02 12:43:45 · 652 阅读 · 0 评论 -
欧拉公式
1,欧拉公式(Euler’s formula),又称尤拉公式,是复分析领域的公式,它将三角函数与复指数函数关联起来,它因为Leonhard Euler而得名。2,欧拉公式对于任意实数x(公式中的实数x通常以弧度表示),有eix=cosx+isinxe^{ix}=cosx+isinxeix=cosx+isinx3,欧拉恒等式当x=π时,eix+1=0x=\pi时,e^{ix}+1=0x=π...原创 2019-06-12 15:42:26 · 37186 阅读 · 0 评论 -
二叉树(binary tree)
1,三种遍历方法:前序遍历:根到左子树再到右子树中序遍历:左子树到根再到右子树后序遍历:左子树到右子树再到根2,满二叉树:除了叶子节点,所有的节点的度都为2,且叶子节点都在最底层3,完全二叉树:只有最下面两层节点度小于2,并且最下面一层的节点都集中在该层最左边的若干位置的二叉树4,性质在二叉树中,第i层的节点总数不超过2^(i-1);深度为h的二叉树最多有2^h-1个节点,最少有h...原创 2019-04-03 18:44:06 · 202 阅读 · 0 评论 -
KKT条件(卡罗需-库恩-塔克条件)
1,定义KKT是啥?它是Karush、Kuhn和Tucker三个人。这三个人单独提出了在非线性规划中获得最优解的必要条件。看着很复杂呀?还好啦。。。只是将拉格朗日乘数法中的等式约束条件泛化到了不等式。2,先来几个简单例子为什么要搞这个看似复杂的东东?当然是为了解决一些问题。下面的问题如果你能解出来,你就可以不用学这个了。2.1 求f(x1,x2)=x12+x22的最小值,约束条件为x...原创 2019-03-28 09:10:08 · 14004 阅读 · 2 评论 -
支持向量机(SVM)之完全线性可分
1,前提条件:在所给数据集完全线性可分时才能应用此模型,属于较理论的情况,实际的数据不大可能完全分开。2,待解决问题(二分类问题):有线性可分数据集T={(x1,y1),(x2,y2),...,(xN,yN)},其中xi∈Rn,yi∈{−1,1},i=1,2,...,NT=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},其中x_i\in R^n,y_i \in \{...原创 2019-04-05 21:42:05 · 737 阅读 · 0 评论 -
支持向量机(SVM)前戏-手动求解超平面方程
问题:训练集有3个数据点,其中两个正例点:x1=(3,3)T,x2=(4,3)T,一个负例点:x3=(1,1)Tx_1=(3,3)^T,x_2=(4,3)^T,一个负例点:x_3=(1,1)^Tx1=(3,3)T,x2=(4,3)T,一个负例点:x3=(1,1)T。试求最大间隔分离超平面(在二维空间即为一条直线)。构建模型:设超平面方程为w1x+w2y+b=0w_1x+w_2y+b=0w1...原创 2019-04-04 14:17:09 · 12986 阅读 · 2 评论 -
主轴定理(Principal axis theorem)
1,补充知识1.1 欧式空间(Euclidean space)直观感受:二维平面,三维立体,拓展到高维空间就对应着超平面。我们在初高中以及大学中的高等数学、线性代数遇到的都是欧几里得空间。为了在数学上准确描述这个空间,需要定义距离、夹角、平移、旋转等概念。两个向量的内积通常会对应到欧几里得平面的一个点。Euclidean plane was defined as a two-dimensi...原创 2019-03-23 10:48:29 · 10320 阅读 · 1 评论 -
数据聚类建模之k-means
1,数据聚类建模与数据预测建模的区别是它不区分输出变量和输入变量,希望将观测值分成两个及以上的自然小类。K-means,顾名思义,根据“平均值”将数据聚成K类。...原创 2019-03-13 17:23:45 · 525 阅读 · 0 评论 -
拉格朗日乘子
1,拉格朗日乘子(lagrange multiplier),又叫拉氏乘子或拉格朗日乘数。它是出现在拉格朗日乘数法中的概念。拉格朗日乘数法可以解决多变量函数在其变量受到一个或多个约束条件时求极值的问题。它可以将含有n个变量的函数(该函数的变量有k个约束条件)的极值问题转化为含有n+k个变量的方程组的解。实现该方法过程中引入的一个或一组新的未知数就叫拉格朗日乘子。2,从点到直线的距离说起。在...原创 2019-03-16 23:18:38 · 3674 阅读 · 1 评论 -
PCA (principal component analysis)
1,主成分分析的目的1.1、降维,从高维度到低维度;1.2、找出最能解释这组数据的因子,第一主成分在方差最大的方向上,前几个主成分一般能解释这组数据方差的70%-90%;1.3、主成分分析对有线性相关的各个组分有很好的应用效果,如果数据有高维度的相关性,应用效果会大打折扣。...原创 2019-03-16 23:18:01 · 468 阅读 · 0 评论 -
数据预测建模概述
1,输入变量可以是数值型或分类型,输出变量也可以是数值型或分类型。如果输出为分类型,则称为分类预测模型;反之,则为回归预测模型。2,一般拿到的数据为一个矩阵,一行对应一个观测,一列对应一个变量。一般自变量(解释变量)会有多个(x1, x2, …, xp),因变量(被解释变量)只有一个(y)。在预测过程中可以看成是发生在p+1为空间中的事件。3,建模过程其实就在找p个x与一个y之间的关系,并将这...原创 2019-03-11 20:08:41 · 5838 阅读 · 0 评论 -
arg min & arg max
arg 是变元(即自变量argument)的英文缩写。arg min 就是使后面这个式子达到最小值时的变量的取值arg max 就是使后面这个式子达到最大值时的变量的取值例如 函数F(x,y):arg min F(x,y)就是指当F(x,y)取得最小值时,变量x,y的取值arg max F(x,y)就是指当F(x,y)取得最大值时,变量x,y的取值Referencehttps://z...转载 2019-03-14 09:13:49 · 1083 阅读 · 0 评论 -
对数损失函数与最大似然损失函数
1,最大似然损失函数(Likelihood loss)常用在分类问题上。形式上是把每一个预测值的概率相乘,得到一个损失值。例如:对一组样本的预测为True(1)概率为[0.4, 0.6, 0.9, 0.1],它们的真实值分别为[0, 1, 1, 0],则损失值为0.6∗0.6∗0.9∗0.9=0.29160.6*0.6*0.9*0.9=0.29160.6∗0.6∗0.9∗0.9=0.2916,...原创 2019-03-08 20:12:19 · 15567 阅读 · 0 评论 -
梯度下降(Gradient descent)
梯度下降算法的定位梯度下降算法是一种求解局部最小值的算法,在线性模型和非线性模型中都可以用。在用某个模型对数据进行拟合时,会用损失函数(或者叫错误函数等等)去评估拟合的准确性,这个时候往往要找到损失函数的最小值,即求出达到最佳拟合效果时各参数的值。求函数的最小值时往往用到梯度下降法。从二维空间的线性回归说起假设平面上有n个点: (x1, y1), (x2, y2), …, (xn, yn)...原创 2019-02-21 17:36:41 · 323 阅读 · 0 评论 -
解答AI面试题
问题转自(原文:https://blog.csdn.net/CSDNedu/article/details/85002678 )1.训练决策树时的参数是什么?2.在决策树的节点处分割的标准是什么?3.基尼系数的公式是什么?4.熵的公式是什么?5.决策树如何决定在哪个特征处分割?6.你如何用数学计算收集来的信息?你确定吗?7.随机森林的优点有哪些?8.介绍一下boosting算法。...原创 2018-12-15 11:36:34 · 226 阅读 · 0 评论