机器学习
文章平均质量分 79
trayfour
Welcome back gentlemen.
展开
-
Numpy学习手册
标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和C语言的一维数组比较类似。但是由于它不支持多维原创 2016-10-23 17:01:57 · 571 阅读 · 0 评论 -
Capsule 胶囊网络学习笔记
以前邹班的SMT没认真听,还得重新回来捡。参考自:https://blog.csdn.net/u013010889/article/details/78722140/CNN的缺点: 忽略了图片中的位置信息,如果在图片中检测到眼睛鼻子等,就认为这是一张人脸,但如果把这些器官打乱,还是会误识别为人脸,这是CNN中max pooling的特性造成的。如上图所示,我们通俗的将每个神经元的...原创 2018-07-09 21:15:25 · 2039 阅读 · 0 评论 -
论文笔记《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》
Chinese Lexical Analysis with Deep Bi-GRU-CRF Network百度自然语言处理部的一篇论文,提出了一个结合分词,词性标注和命名实体识别的工具。 论文指出百度已经开发了各种分词,词性标注,实体识别的工具,相互独立以便各个团队使用。这种方式有两个缺点:重复计算太多,严重拖慢了计算速度吗,浪费计算资源不同任务之间不能share一些特征,比如分词的...原创 2018-07-09 20:59:36 · 2796 阅读 · 0 评论 -
glove 学习笔记
话不多说,入正题。动机:现有的词向量模型, 1 局部上下文建模的方法 例如word2vector 用通俗的话来讲就是,如果两个词在训练语料中出现的上下文比较类似,比如“食堂”和“餐厅”,都在“我”,“去”,“吃饭”这种上下文上出现了许多次,那么他俩的词向量就比较相似。 2 矩阵分解的方法,例如LSA 将文档和单词的共现矩阵,也就是行是文档,列是单词,第i行第j列,表示文档i中是否包含单词j(原创 2017-09-02 14:55:40 · 11591 阅读 · 2 评论 -
SVM一些问题及思考
给定训练集合 D=(x1,y1),(x2,y2)……(xn,yn)\begin{equation} D = (x_{1},y_{1}),(x_{2},y_{2})……(x_{n},y_{n}) \end{equation}划分超平面 wTx+b=0\begin{equation} w^{T}x+b = 0 \end{equation} 点到直线距离 r=|wTx+b|||w||\b原创 2017-09-11 13:06:52 · 1595 阅读 · 0 评论 -
t-SNE学习笔记
http://www.datakit.cn/blog/2017/02/05/t_sne_full.html 拜读了这位大神的笔记,有些一开始不太明白的地方,写个笔记记下来。1.1基本原理SNE是通过仿射(affinitie)变换将数据点映射到概率分布上,主要包括两个步骤:SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。 SN原创 2017-07-28 09:32:46 · 5199 阅读 · 0 评论 -
逻辑斯蒂回归公式推导
逻辑斯蒂回归,一个不是很恰当的理解就是在线性回归的基础上加了一个sigmoid函数。将其输出空间映射到0-1上面来。 然后映射后的这个值就代表他被分为类别1的概率。话不多说。这个就是逻辑回归(线性回归加上sigmoid的)最基本的公式。 线性回归是用y = wx_i +b 去拟合y_i也就是训练一组参数w使得wx+b尽可能的去逼近,而逻辑回归中的对数几率回归(周志华老师的书上有介绍,这里就不啰嗦原创 2017-04-30 11:57:11 · 6258 阅读 · 0 评论 -
熵,互信息,KL距离(相对熵),交叉熵
熵信息论中的熵,又叫信息熵。它是用来衡量,一个随机变量的不确定程度。 熵越大,他的不确定性越大。最大熵模型的假设就是基于此而来。 H(X)=E[I(xi)]=−∑n=1NP(xI)log(P(xi))\begin{equation*}H(X) = E[I(x_{i})] = -\sum_{n = 1}^NP(x_{I})log(P(x_{i}))\end{equation*}联合熵联合熵用得原创 2017-09-08 21:32:56 · 3966 阅读 · 1 评论 -
Dropout: A Simple Way to Prevent Neural Networks from Overfitting
本文来自《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》 以学习笔记的形式书写,有些地方写得或者翻译得不太恰当,望见谅!!过拟合问题一直是深度学习中难以处理的问题,dropout的key idea就是在训练过程中随机的”丢弃”掉一部分units。 这里的丢弃是指暂时性的remove,而不是永久的。 可以从两个原创 2017-04-20 13:10:50 · 5249 阅读 · 0 评论 -
word2vector 一些问题及思考
本文是看了论文《Distributed Representations of Words and Phrases and their Compositionality》的学习笔记。 话不多说。 贴上cbow 和skip-gram的示意图,一个是以context预测word,一个是word预测上下文。 听同学说业界主要用skip-gram加上negative sampling这一套。论文里面也主原创 2017-04-30 20:49:11 · 5204 阅读 · 0 评论 -
Memory Network简单理解
最近想把memory network的那一套引入到自己的任务中,所以写一些学习过程中的笔记。 here is the paper http://cs224d.stanford.edu/reports/KapashiDarshan.pdfmemory 最开始出现在是 QA(问答系统)任务中。下面是memory network的结构 由4个单元组成 input单元 ,Generalization原创 2017-04-29 21:18:59 · 9251 阅读 · 0 评论 -
感知机及其对偶问题,参考《统计学习方法》
感知机模型: 1 判别模型, 2 旨在学习出一个线性划分的超平面输入 T= {(x1,y1),(x2,y2)……(xN,yN)}xi 是一n维的特征向量,yi属于{+1,-1}。 通俗来讲就是。(假设T是线性可分的)输出 函数f(x) = sign(w·x + b)sign表示符号函数。是一n维的向量。 (w,b)可以确定一个超平面。首先,我们要使用梯度下降来求解。就得确定损失函数。分类错误原创 2017-03-06 13:26:07 · 1053 阅读 · 0 评论 -
卷积神经网络学习笔记
卷积神经网络 转自:http://dataunion.org/11692.html 找到一个很不错的CNN的讲解,认真花了点时间把里面自己感觉有用的东西稍微懂了一些。 以前组会上听人讲过,但是当时有些地方听得不是太明白。卷积层和池化层里面有些东西看似很难,其实和只要明白其中的道理,感觉挺有意思的。在图像处理中,往往把图像表示为像素的向量,比如一个1000×1000的图像,可以表示为一个1000转载 2016-11-08 14:02:22 · 1096 阅读 · 0 评论 -
知其然知其所以然之——word2vector
在学习word2vector的过程中,下面两位博主的总结及讲解给了我很大帮助。本文主要是记录在学习和理解他们的博客的过程中个人也有一些思考和理解。本人才学疏漏,有错误的地方请大家指正。 http://blog.csdn.net/itplus/article/details/37969519 http://blog.csdn.net/mytestmy/article/details/2696914原创 2016-10-14 13:57:23 · 3369 阅读 · 0 评论 -
Neural Machine translation中的Attention机制
随着深度学习的发展,NMT(Neural machine translation)已经逐渐取代了SMT(statistic MT)。其最大的有点就是系统的整体和简单,少去了统计机器翻译中的分词,对齐。抽短语等繁琐的步骤。而NMT的大致流程和思想可以去参考下面的链接,讲的很详细。 https://devblogs.nvidia.com/parallelforall/introduction-neur原创 2016-10-13 20:21:15 · 2051 阅读 · 0 评论 -
推荐给初学LSTM或者懂个大概却不完全懂的人
个人认为下面这篇博文非常适合初学或者学的很浅的朋友。 转自http://www.jianshu.com/p/9dc9f41f0b29经常接触LSTM,GRU,RNN这些模型,对于LSTM的印象只是知道它用来解决梯度消失梯度爆炸问题,对于长距离的句子的学习效果不好的问题,而且大概知道里面是加了一些参数,加了门单元来选择忘记和记住一些信息。但是具体公式没有推过,所以理解的不够深。但是上面这篇长博文,作原创 2016-10-13 14:06:00 · 10661 阅读 · 0 评论 -
sigmoid和softmax总结
sigmoid函数(也叫逻辑斯谛函数): 引用wiki百科的定义: A logistic function or logistic curve is a common “S” shape (sigmoid curve). 其实逻辑斯谛函数也就是经常说的sigmoid函数,它的几何形状也就是一条sigmoid曲线。 logistic曲线如下: 同样,我们贴一下wiki百科对softma原创 2016-10-13 12:47:59 · 134822 阅读 · 11 评论 -
theano配置问题
以前在配置theano环境的时候,只按照教程往./theanorc里面添加了几行内容,现在又踩坑了,所以就查了下文档。theano的config模块包含了许多属性来定义theano的动作。改变theano配置有三种方式:按照优先级依次为: theano.config.property 赋值THEANO_FLAGS 修改./theanorc可以通过print函数查看你现在的配置 ...原创 2018-07-16 23:33:25 · 1118 阅读 · 0 评论