机器学习
文章平均质量分 93
hustqb
暂无
展开
-
数据建模(Data Modeling)是什么?
声明:译自博客《What is Data Modelling? Conceptual, Logical, & Physical Data Models》什么是数据建模?数据建模(Data modeling)是为要存储在数据库中的数据创建数据模型的过程。数据建模在概念上包括以下3个部分:数据对象(Data objects)不同数据对象之间的关联(The associations b...翻译 2019-05-23 21:33:05 · 46203 阅读 · 0 评论 -
自然语言处理中的Word Embedding简介
本文参考自What Are Word Embeddings for Text简介Word Embedding可以将word转化为数值型词向量,便于后续机器学习和深度学习模型的训练。并且,word之间的相似性越大,词向量之间的距离越小。Word Embedding有两大优势:原本离散的word被转化为连续的数值型向量,便于计算。包含更多的信息:因为相似word的词向量在数值上是相近的。...原创 2019-11-02 20:09:25 · 2310 阅读 · 0 评论 -
gradient boosting梯度提升决策树
声明: 1. 转自《统计学习方法》gradient boosting提升树利用加法模型与前向分步算法实现学习的优化过程。当损失函数是平方损失和指数损失函数时,每一步的优化都很简答。但对于一般损失函数而言,往往每一步的优化并不那么容易。针对这一问题,Freidman提出了gradient boosting算法。这是利用最速下降法,其关键是利用损失函数的扶梯度在当前模型的值:−[∂L(yi,...转载 2018-04-07 18:17:54 · 920 阅读 · 0 评论 -
无从下手?一文了解经典机器学习算法
声明:参考——入门 | 机器学习新手必看10大算法本文中的github链接指向我的github机器学习实战代码常见机器学习算法的使用情况回归多元线性回归y=w⋅x+by=w⋅x+by = w\cdot x + b其中,xxx为输入特征特征向量。它的损失函数是基于最小二乘法的MSE,优化方法是梯度下降法。优点:训练速度快,可解释性强。缺点:对异常样本...原创 2018-04-03 17:30:39 · 535 阅读 · 0 评论 -
核函数
声明: 1. 转载自《统计学习方法》核函数定义设χχ\chi是输入空间(欧式空间RnRnR^n的子集或离散集合,又设HHH为特征空间(希尔伯特空间),如果存在一个从χχ\chi到HHH的映射ϕ(x):χ→Hϕ(x):χ→H\phi (x): \chi \rightarrow H使得对所有x,z∈χx,z∈χx, z \in \chi,函数K(x,z)=ϕ(x)⋅ϕ(z)K(x,z...翻译 2018-04-05 22:26:18 · 705 阅读 · 0 评论 -
t-SNE实践——sklearn教程
声明:参考sklearn官方文档t-SNEt-SNE是一种集降维与可视化于一体的技术,它是基于SNE可视化的改进,解决了SNE在可视化后样本分布拥挤、边界不明显的特点,是目前最好的降维可视化手段。 关于t-SNE的历史和原理详见从SNE到t-SNE再到LargeVis。 代码见下面例一t-distributed Stochastic Neighbor Embedding...翻译 2018-06-09 21:14:36 · 81786 阅读 · 17 评论 -
最大似然估计、贝叶斯估计和最大后验估计
声明:转载自参数估计:最大似然、贝叶斯与最大后验前言中国有句话叫“马后炮”,大体上用在中国象棋和讽刺人两个地方,第一个很厉害,使对方将帅不得动弹,但这个跟我们今天说的基本没关系;第二个用途源于第一个,说事情都发生了再采取措施,太迟了。但不可否认,我们的认知就是从错误中不断进步,虽然已经做错的不可能变得正确,但“来者尤可追”,我们可以根据既往的经验(数据),来判断以后应该采取什么样的...转载 2018-08-25 11:51:52 · 815 阅读 · 0 评论 -
从二项分布推导泊松分布
参考:可汗学院从二项分布推导泊松分布 二项分布:P(X=k)=Cnk⋅pk⋅(1−p)n−kP(X=k) = C_n^k\cdot p^k\cdot (1-p)^{n-k}P(X=k)=Cnk⋅pk⋅(1−p)n−k抛硬币 以抛硬币为例,ppp可以表示抛一次硬币,朝上的概率,P(X=k)P(X=k)P(X=k)表示抛nnn次硬币后,kkk个硬币朝上的概率。车流量估计 将抛硬币的...原创 2018-12-22 19:56:39 · 15187 阅读 · 10 评论 -
马氏距离(Mahalanobis Distance)介绍与实例
temp原创 2019-05-20 09:27:26 · 33070 阅读 · 0 评论 -
多层感知器训练过程导论
摘自《机器学习导论》训练过程改善收敛性 梯度下降具有多种优点。它简单,它是局部的,即权重的改变只是用前后突出单元和误差(适合向后传播)的值。当使用在线训练时,它不需要存储训练集,并且可以自适应学习任务的变化。但是,就自身而言,梯度下降收敛很慢。当学习时间很重要时,可以使用更复杂的优化方法。有两种频繁使用的优化技术,可以显著改善梯度下降的性能。动量 令wi" role="转载 2018-02-07 21:08:40 · 1286 阅读 · 0 评论 -
决策树的剪枝
摘自《机器学习导论》剪枝通常,如果到达一个节点的训练实例数小于训练集的某个百分比(例如,5%),则无论是不纯(离散数据)还是误差(连续数据),该节点都不进一步划分。其基本思想是,给予郭少实例的决策树导致较大的方差,从而导致加大的泛化误差。在树完全构造出来之前就提前停止树构造称作树的先剪枝(prepruning)。得到较小树的另一种可能做法是后剪枝(postpruning),在实践中转载 2018-02-05 11:37:39 · 788 阅读 · 0 评论 -
sklearn中的异常检测方法
本文是对sklearn 2.7. Novelty and Outlier Detection的一个简单总结。简介假设我们有一个数据集,这个数据集中只有两类:正常(又称inliner)和异常(又称outliner)。怎么就叫正常:占数据集的大多数 在各个维度上比较聚集怎么就叫异常:占少数 通常是比较分散很多场景下我们需要识别正常和异常,即异常检测,特别常见于数据清洗。...原创 2017-07-17 09:56:30 · 36614 阅读 · 17 评论 -
模型评估——定量分析预测的质量
在sklearn库里,用于评估模型预测的质量的API一共有3种:评分方法、评分参数和度量函数。翻译 2017-09-10 14:24:21 · 16252 阅读 · 0 评论 -
数据降维与可视化——t-SNE
  t-SNE是目前来说效果最好的数据降维与可视化方法,但是它的缺点也很明显,比如:占内存大,运行时间长。但是,当我们想要对高维数据进行分类,又不清楚这个数据集有没有很好的可分性(即同类之间间隔小,异类之间间隔大),可以通过t-SNE投影到2维或者3维的空间中观察一下。如果在低维空间中具有可分性,则数据是可分的;如果在高维空间中不具有可分性,可能是数据不可分,也可能仅仅是因为不能投影到低维空间。翻译 2017-09-30 17:26:56 · 135324 阅读 · 19 评论 -
从简单的线性回归入门机器学习
虽然本文从一开始就限定了机器学习的方法——线性回归,但是在大多数情况下,解决问题的主要难点在于**寻找合适的机器学习方法**上。而这方面需要长期的积累,所以显然不是本文要讲的内容了。 下面,本文将用面向过程的方式分解解决线性回归问题的步骤(每一个章节标题都是一个步骤),以此来帮助大家对机器学习有一个初步的了解。原创 2017-10-10 15:52:22 · 5054 阅读 · 0 评论 -
Hinge loss
声明:参考自维基百科后面可能会更新Hinge Loss 在机器学习中,hinge loss作为一个损失函数(loss function),通常被用于最大间隔算法(maximum-margin),而最大间隔算法又是SVM(支持向量机support vector machines)用到的重要算法(注意:SVM的学习算法有两种解释:1. 间隔最大化与拉格朗日对偶;2. Hinge L...原创 2017-10-25 22:33:43 · 66602 阅读 · 11 评论 -
神经网络不学习的原因
神经网络故障检查列表——check list神经网络的训练出现了问题咋办?损失函数不收敛怎么办?准确率很高但输出不对是什么清况?本文提供了相当全面的检查手册。主要分为数据问题,网络问题和训练问题。翻译 2017-11-27 20:12:55 · 31311 阅读 · 6 评论 -
图文并茂的PCA教程
声明:参考:PCA数学原理、维基百科PCA——主成分分析简介PCA全称Principal Component Analysis,即主成分分析,是一种常用的数据降维方法。它可以通过线性变换将原始数据变换为一组各维度线性无关的表示,以此来提取数据的主要线性分量。 z=wTxz=wTxz = w^Tx 其中,z为低维矩阵,x为高维矩阵,w为两者之间的映射关系。划重...原创 2017-10-30 16:03:48 · 69758 阅读 · 36 评论 -
自信息、香农熵、互信息、交叉熵、KL散度备忘录
机器学习中相关信息度量的备忘录自信息自信息(self-information)用来衡量单一随机事件发生时所包含的信息量的多寡。 I(pi)=−log(pi)I(pi)=−log(pi)I(p_i) = -log(p_i)香农熵香农熵是随机事件X的所有可能结果的自信息期望值。 H(x)=Ex∼P[I(x)]=−∑i=1np(xi)I(xi)=−∑i=1np(xi)logb...原创 2018-01-25 15:43:04 · 2014 阅读 · 0 评论 -
基于距离的分类
k最近邻分类器将实例指派到被最多近邻代表的类。它基于这样的想法:实例越类似,它们越可能属于同一类。只要有一个合理的相似性或距离度量,就可以对非类使用相同的方法。 大多数分类算法可以改写为基于距离的分类。例如,在最近均值分类器中(nearest mean classification),选择Ci" role="presentation">CiCiC_i,如果 D(x,mi)=minj=1KD原创 2018-02-04 11:24:27 · 3473 阅读 · 0 评论 -
机器学习之性能度量
废话不说,本文分为两个部分: 第一部分,我对周志华教授《机器学习》这本书中性能度量知识点中疑难点的学习感悟;第二部分,我感觉该书2.3节 性能度量 中最后部分的代价曲线表述有误,苦于没找到联系教授的正确方式,故希望与广大网友一起探讨。原创 2017-05-03 11:42:13 · 4395 阅读 · 3 评论