机器学习基础
文章平均质量分 91
IT莫莫
这个作者很懒,什么都没留下…
展开
-
SVM(一)
一.什么是SVM通俗来讲,SVM就是一个能把数据分的最开的lr,它也是构造一个线性分类超平面。能将两类数据分开的超平面有很多,lr是找出能让所有数据远离的超平面,而svm只专注于那些离超平面最近的点,因为这些点才是比较难分容易混淆的点。如下图,很自然的能理解A比B要好,因为B中那些离分离面近的点我们不太确定属于哪类。二.线性SVM从第一节可以看到,svm优化的是决策面到离超平面...原创 2018-07-25 09:57:25 · 162 阅读 · 0 评论 -
半监督学习简介
对半监督学习一直都是一知半解,基本就知道使用了有标签数据和无标签数据,但是怎么使用就没有做过了。正好毕设遇到了标签数据太少的问题,看了看半监督学习。半监督学习半监督学习中用了有标签和无标签两种数据,且无标签数据远大于有标签。但是半监督学习对无标签数据有一定要求,没要求的话我们就不用标数据了,机器学习中数据稀缺的问题直接就解决了。通常来说需要:无标签类别平衡 无标签的分布需要和有标签相...原创 2019-01-24 02:05:43 · 835 阅读 · 0 评论 -
提升方法总结
1. Boosting提升方法通过改变训练样本权重,学习多个分类器,并将分类器线性组合提高分类性能。Boosting需要做到两件事,一是在每一轮如何改变训练数据的权值或概率分布;二是如何将弱分类器组合成一个强分类器。2. AdaBoost为了解决Boosting的两个要求,adaboost在每一轮提高被错分的样本的权值,降低正确分类样本的权值。在组合分类器的时候,给误分率小的分类器较大...原创 2018-11-11 12:37:29 · 451 阅读 · 0 评论 -
attention详解
在seq2seq+attention入门里曾经提到一点attention,感觉这个东西很有意思,模型千变万化,也非常符合人类的思想,在这里详细介绍下attention1. 定义剥离开seq2seq模型,Google给了attention模型一个更加形式化的定义attention是由query和一系列<key,value>对组成的,query依次与{key_1,key_2.....原创 2018-11-01 12:50:22 · 2084 阅读 · 0 评论 -
word2vec分析
看过word2vec 中的数学原理详解之后,做一个记录word2vec中的基本知识就不多做记录了,比如cbow模型和skip-gram模型分别是预测中间词和周围词的。这里解释一下word2vec用到的两种计算方式,哈弗曼树编码hierarchical softmax,以及负采样。首先要知道的是不是没有这两种计算方式就没办法计算word2vec了,之所以要用这个是因为我们模型输出的结果是预测...原创 2018-10-29 13:07:18 · 295 阅读 · 0 评论 -
Kmeans算法总结
1. 定义Kmeans算法的过程较为简单1、从D中随机取k个元素,作为k个簇的各自的中心。2、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。3、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。 4、将D中全部元素按照新的中心重新聚类。5、重复第4步,直到聚类结果不再变化。6、将结果输出。2.相异度...原创 2018-10-29 12:08:59 · 1773 阅读 · 0 评论 -
模型评价指标
首先介绍几个指标:TP:正确预测正类 FP:错误预测成正类,其实是负类FN:错误预测成负类,其实是正类 TN:正确预测成负类1.准确率(accuracy)预测正确的占所有样本的比例(TP+TN)/(TP+TN+FP+FN)2.召回率(recall)召回率(Recall)又叫查全率,含义是在实际为正的样本中被预测为正样本的概率TP/(TP+F...原创 2018-10-21 04:55:24 · 1422 阅读 · 0 评论 -
seq2seq+attention入门
前言本来是要了解attention模型,因为我自己的毕设主要在做分类,借此机会了解一下attention模型,其实之前实习的时候有用过seq2seq模型,现在在博客中补上记录。1. seq2seq1.简介seq2seq的介绍基本都是如下这张图,这种结构首先就是为了解决输出也是一个序列的问题。比如机器翻译,文本摘要等,它们输入的是一段序列,输出的同样也是序列,所以采用了这种encod...原创 2018-10-20 11:52:37 · 2801 阅读 · 0 评论 -
CNN总结(一)
1. 结构卷积神经网络是由若干个卷积层和池化层(Pooling)堆叠起来的结构,常见结构是多个卷积层连接一个池化层注意在特征较少的时候有一个小方法,只用卷积层,这时池化层会丢失部分信息。注意卷积是一个有长宽高的三维操作。第一层用了三个filter卷积出三层的feature maps,每一个filter卷积出一层。第二层是一个池化层进行下采样。注意这里的features已经是一个三维...原创 2018-10-19 13:10:33 · 155 阅读 · 0 评论 -
pytorch随笔:一
1. embeddingimport torch.nn as nnembed=nn.embedding(dic_size,word_vec)embed(torch.tensor([1,2,3]))embedding功能在nn里,初始化给出两个参数(词表大小,词向量维度),这时给出的其实是一个随机化的矩阵,传入索引访问。 2. 构建网络的方式(1) 通过类来构建c...原创 2018-10-18 08:23:27 · 371 阅读 · 0 评论 -
矩阵乘法的分析
1. 分类矩阵的乘法运算分为点乘和矩阵乘点乘矩阵点乘的运算如上图,对应点相乘的运算。如果相乘后再相加的话就是卷积运算。可以看到第一个两个矩阵的点并不能一一对应,一个维数是(2,1),一个维数是(2,3),最后结果的维数是(2,3),维数是1的那一维被复制后和后面的矩阵做点乘,这种方式被称作广播。广播语义广播可以扩展两个形状不同的矩阵使之成为相同形状的矩阵让那些需要形状相...原创 2018-10-18 06:47:54 · 1345 阅读 · 0 评论 -
交叉熵的公式是怎么来的
交叉熵损失函数是机器学习中一个常见的损失函数,用来衡量目标与预测值之间的差距,看着公式能感觉到确实有种在衡量差距的感觉,但是又说不出为什么有这种作用。下面从信息量-信息熵-交叉熵的步骤来看交叉熵公式的意义。信息量信息量是我们能获得未知信息的多少,比如我说周杰伦某天开演唱会,这件事信息量就很小,因为演唱会哪天开已经公布了,这件事发生的概率很大,不用我说你也知道。但是我如果说周杰伦出轨了,这件...原创 2018-07-31 21:42:17 · 4334 阅读 · 0 评论 -
导数与梯度
导数导数是一个很熟悉也很容易想象到的概念,导数体现了函数在某点的瞬时变化率,也可表示切线斜率高中时我们对y=x^2求导的时候,实际上将其看作了一元函数,而y=f(x)是方程而不是函数,真正的函数是F(x,y)=x^-y,是一个曲面,只不过取了F(x,y)=0时候的特例。偏导数在二元函数F(x,y)中由于有两个自变量,导数也有x和y两个方向的分量,所以引入了偏导数。曲面上一点的瞬时变化率可以是任意方...原创 2018-07-14 23:15:33 · 1622 阅读 · 0 评论 -
SVM(二)
约束条件下的最优化问题在上文中我们得到了SVM的目标函数,是一个约束最优化问题,下面来求解这个问题。1.约束最优化问题既然是约束,就可以分为和两种形式(注意后面也有等于,不是<),如下图所示,分别是在一条线上和一片区域上寻找最优解。(1)最优解特点:观察等式约束情况,可以发现直线上的最优解正好与等高线相切。这种情况是必然的,在最优解处目标函数的梯度方向如果不与直线的切...原创 2018-07-25 14:20:31 · 343 阅读 · 0 评论 -
概率论中的一些基础知识——条件概率 先验概率 后验概率 似然 概率分布函数 概率密度函数
1.条件概率条件概率反应的是在给定A的条件下B的概率由条件概率可得由此还可以推出全概率公式,在全概率公式里,P(A)是所有P(AB_i)的求和,对应概率图表中A的偏概率2.贝叶斯公式贝叶斯公式由条件概率推出,我们假设要做一个分类任务,给出数据A求它的标签B,这就是公式左边。直接求解比较困难,所以贝叶斯公式可以把它转化成P(A|B),即在标签B条件下是数据A的概率。...原创 2019-02-01 12:38:13 · 4533 阅读 · 0 评论