machine learning
文章平均质量分 94
innerVoi
一只啥也不会的CS菜鸟,致力于探索和分享有趣的研究...目前关注:数据选择和异常检测(欢迎相关领域的研究者一起交流讨论/开展合作)
展开
-
【IUI 2020】人在回路机器学习——Human-in-the-Loop AI in Government: A Case Study
人在回路机器学习在政府收据识别中的案例原创 2022-10-14 12:24:06 · 1646 阅读 · 1 评论 -
【ML实战】朴素贝叶斯之文档二分类
大纲相关知识思想代码实现相关知识朴素贝叶斯(Naive Bayes)是一种分类方法,可以处理多分类问题,在数据量较少的情况下亦可有效。其缺点是对输入数据的准备方式较为敏感。P(ci∣x)=P(x∣ci)P(ci)P(x)P(c_{i}|x) = \frac{P(x|c_{i})P(c_{i})}{P(x)}P(ci∣x)=P(x)P(x∣ci)P(ci);其中cic_{i}ci表示第iii个类别,xxx表示样本。式子表示样本xxx属于cic_{i}ci类别的概率。朴素贝叶斯存在两个前提原创 2020-07-16 15:13:01 · 473 阅读 · 0 评论 -
【ML实战】决策树ID3
大纲相关知识思想代码实现相关知识决策树是一种分类方法,通过不断的选取最优特征来进行树的建立香农熵:度量数据集的无序(混乱)程度H(x)=−p∗log(p)H(x) = -p*log(p)H(x)=−p∗log(p),其中p表示选择该分类的概率信息增益(information gain):g(D,A)=H(D)−H(D∣A)g(D,A) = H(D) - H(D|A)g(D,A)=H(D)−H(D∣A);暨表示在给定A类别下,数据集合不确定性(混乱性)减小的程度。思想对于给定数据集,决策树原创 2020-07-14 15:23:42 · 142 阅读 · 0 评论 -
【ML实战】KNN
大纲思想代码实现思想训练样本集中每个数据都有标签,即我们知道每一个样本与其分类的对应关系。KNN算法的思想则是在输入一个新的样本向量后,与数据集中的各个样本数据特征进行比较,找出其与之特征最相似(最近邻)的K个数据,统计它们的标签,用累计数量最多的标签作为新样本数据的标签。代码实现导入需要的包import numpy as npimport operator创建一些简单的数据def createData(): group = np.array([ [1.原创 2020-07-12 11:45:59 · 161 阅读 · 0 评论 -
偏差-方差分解简要推导
假设数据集上需要预测的样本为Y ,特征为X, 潜在模型为Y=f(X)+εY=f(X)+ \varepsilonY=f(X)+ε,其中ε∼N(0,σε)\varepsilon \sim N(0,\sigma_\varepsilon)ε∼N(0,σε)是噪声,估计的模型为f^(x)\hat{f}(x)f^(x)。推导过程Err(X)=E[(Y−f^(X))2]Err(X)=E[(Y-\ha...原创 2020-04-03 16:00:12 · 2390 阅读 · 1 评论 -
简述最小二乘法
最小二乘法又称最小平方法,是一种数学优化方法,它通过最小化误差的平方和寻找数据的最佳函数匹配。经常用于回归问题,可以方便的求得未知参数。(曲线拟合,最小化能量或者最大化熵等问题)数学定义给定函数f(x;α0,α1,α2,⋯ ,αm)f(x;\alpha_{0},\alpha_{1},\alpha_{2},\cdots,\alpha_{m})f(x;α0,α1,α2,⋯,αm)及其在...原创 2020-04-03 10:28:45 · 874 阅读 · 0 评论 -
一文快速回顾_机器学习概率与统计基础
1.随机变量随机事件的数量表现;随机变量可以是离散的或者连续的。离散随机变量是指拥有有限个或者可列无限多个状态的随机变量。连续随机变量是指变量值不可随机列举出来的随机变量,一般取实数值。随机变量通常用概率分布来指定它的每个状态的可能性。2.常见概率分布伯努利分布伯努利试验:只可能有两种结果的单次随机试验。又称0-1分布,单个二值型离散随机变量的分布。P(X=1)=p,P(X...原创 2020-04-02 15:46:45 · 134 阅读 · 0 评论 -
一文快速回顾_机器学习线性代数基础
标量:只有大小没有方向的物理量向量:又称矢量,既包含大小又包含方向的物理量矩阵:矩阵是一个二维数组,其中的每一个元素一般由两个索引来确定,一般用大写变量表示。张量:矢量概念的推广,可以用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。【标量是0阶张量,矢量是1阶张量,矩阵是2阶张量】矩阵的秩:矩阵列向量中的极大线性无关组的数目,记作列秩。行秩=列秩=矩阵的秩...原创 2020-04-01 16:12:52 · 131 阅读 · 0 评论 -
【李航-统计学习方法笔记】逻辑斯蒂回归(Logistic Regression)
逻辑斯蒂回归是一种经典的分类方法。它包括二项逻辑斯蒂回归和多项逻辑斯蒂回归。多项逻辑斯蒂回归的实现仍然基于二分类的思想,例如,现有数据集可分为三类A、B、C,多项分类的思想就是把数据先分为属于A的和不属于A的,再在不属于A的数据集B和C中将数据继续分为属于B(或C)和不属于B(或 C)的。以此循环往复,多分类的任务就简化成了一小块一小块的二分类任务。本文主要介绍逻辑斯蒂回归的二项模型原理...原创 2019-08-02 15:23:02 · 1515 阅读 · 0 评论 -
简述感知机(perceptron)
感知机是二类分类的线性分类模型(判别模型)。输入为实例的特征向量,输出为类别取值+1或-1。一、感知机函数其中,w为权值向量,b为偏置。二、感知机学习的损失函数假设数据集是线性可分的,感知机学习的目标是找出将数据集中正实例和负实例完全分开的分离超平面。那么对于上述的函数来说,我们的目的就是求得w和b的参数值,这样我们就能够确定最终的函数从而得到这个超平面。如何去求w和b...原创 2020-04-01 11:12:34 · 956 阅读 · 0 评论