machine learning
文章平均质量分 54
BVL10101111
THU master, interested in ML,DL,DM
github:https://github.com/BenchengY
展开
-
softmax函数
softmax函数表达式:目的是针对一个多分类问题,有k个类别。输出一个k维向量,每一维表示是这个类别的概率。式子中除以所有概率和,是为了归一化,是的k维向量,每一维的数字在(0,1)之间,且和为1。在判断到底是属于哪一类时,只需取输出的向量中,概率最大的那一维所对应的类别即可。原创 2016-11-03 10:40:40 · 1219 阅读 · 0 评论 -
神经网络中自定义LOSS的BP计算
先回顾一下高数当中学的链式法则 然后BP的想法就是不断的用链式法则,直到链到能到能看到被导的未知数为止,如下图,就是直到链到一个表达式中含有要求的被导变量 比如求dJ/dwi 那就一直链式法则下去,直到看到dzi=wi*yi-1+bi为止,因为到这里对wi的导数直接就可求得为yi-1,而之前链式过程中所要求的导数在上一layer已经算的,所以可以BP从后往前算导数。 具体求解就如下图所示。原创 2016-12-26 17:18:20 · 1802 阅读 · 0 评论 -
Data Mining Competition中数据缺失值处理
在数据挖掘以及机器学习中,拿到的数据,经常是某些记录的某些字段是缺失的,面对这种情况,可以有以下几种处理方法:1.直接drop这条记录 2.缺失值用众数填补 3.缺失值用中位数填补 4.缺失值用rand(mean-std,mean+std)随机数填补原创 2017-06-02 21:19:31 · 1659 阅读 · 1 评论 -
python机器学习实战之 Decision Tree For Titanic in Kaggle
最近陆续准备熟悉一下sklearn库,在此做一下记录。这篇文章是简短的对于decision tree的kaggle上的实战记录,详细的请见github一.数据集:Titanic 是一个二分类问题,给你每个人的一些feature,判断最后是否会Survive。二.数据处理:参考here1.丢弃无用的'PassengerId','Name','Ticket'特征2.Embarked,one-hot原创 2017-06-04 12:31:18 · 1721 阅读 · 1 评论 -
最优化问题之如何逃离(跳出)鞍点(Saddle Points)
看了点鞍点相关的知识,做一下备录。 我们知道在,优化问题中,深度学习的优化问题中,经常存在鞍点,就是这一点的导数为0,从某些维度看是极小值,从另一些维度看是极大值,比如:深度学习的寻优过程中,鞍点所造成的困难,远比局部最小值大的多,因为 1)在高维参数空间,鞍点存在较多 2)大量工作表面局部最优解,对于模型而言已经足够好。此外,正是因为深度学习中鞍点的大量存在,传统的牛顿法不适合,原创 2017-09-21 14:48:56 · 10507 阅读 · 2 评论 -
cnn学习之训练和测试数据集处理
最近,在看alexnet,vgg,googlenet的论文时,对于论文中training和testing的时候对于image的处理,做一下总结。(其中有些困惑,可能理解不到位,还望指出)training我们知道对于cnn而言,输入的数据大小是必须相同的,而对于imagenet中的数据集而言,大小不一,因此一般先rescale成一个固定大小比如256*256,然后再从这256*256原创 2016-12-09 19:35:50 · 6051 阅读 · 0 评论 -
Deep Learning 之 参数初始化
本文仅对常见的参数初始化方法进行总结(大部分内容来自deep learning一书),原理性的问题不进行过多的探讨。**Deep Learning中参数初始化十分重要,一般来说有以下这些原因:** 1.初始点的选取,有时候能够决定算法是否收敛 2.当收敛时,初始点可以决定学习收敛的多快,是否收敛到一个代价高或低的点 3.初始化也可以影响泛化 4.初始参数需要破坏不同神经元间的“对称性”,因为原创 2017-04-26 10:27:55 · 9736 阅读 · 0 评论 -
NRL: network representation learning & NE: network embedding. 相关论文总结
Must-read papers on NRL/NE.NRL: network representation learning. NE: network embedding.DeepWalk: Online Learning of Social Representations.Bryan Perozzi, Rami Al-Rfou, Steven Skiena. KDD 2014. paper转载 2017-07-18 11:36:34 · 3954 阅读 · 1 评论 -
TF-IDF
1.TF-IDF是什么?TF-IDF :term frequency-inverse document frequency 1.tf-idf 作为一种权重经常被用作信息检索和文本挖掘领域 2.这样一种权重时通过统计计算得出的。来衡量 在一个语料库或者文本集中, 一个term 或者 word对于一个文档的重要性。(比如,有k个文档,其中一个文档d种有一个词w,衡量 w对于k中的d的重要性原创 2017-12-21 11:34:27 · 1354 阅读 · 0 评论 -
推荐系统经典论文文献及业界应用
Survey方面的文章及资料Adomavicius G,Tuzhilin A. Toward the next generation ofrecommender systems: A survey of the state-of-the-art and possibleextensions[J]. Knowledge and Data Engineering, IEEETransaction转载 2017-12-16 22:46:12 · 2550 阅读 · 0 评论 -
机器学习备忘录(持续记录)
有时候,看一些机器学习相关的概念,可能是当时懂的不是很深刻,过了一段时间就又忘了,因此在这里,将所遇到的知识,在这里一点点记录,仅作为备忘录。1.negative sampling往往在word2vec中运用到,在用softmax计算分母的时候,由于语料太大(1-hot),全遍历一遍计算效率不高,很难简单用sotfmax之后的大向量表示各个word的概率。因此,采用了对语料按一定分布进行采样计算lo原创 2017-11-09 13:21:01 · 995 阅读 · 0 评论 -
论文笔记之Structural Deep Network Embedding
本论文是kdd2016的一篇论文主要的目的也是做node embedding。主要的想法就是通过deep autoencode对node进行embedding,不过在在embedding的时候不仅考虑了1-hop的信息而且考虑了n-hop的信息。使其变成半监督学习的模式(其实就是对loss function改了改)输入是一个graph的n*n的邻接矩阵S,其实可以看成有n个数据的训练集,每个数据的f原创 2017-01-09 20:09:43 · 6466 阅读 · 3 评论 -
论文笔记之Diffusion-Convolutional Neural Networks
本文是2016年NIPS上的论文也是在graph上采用cnn进行了探讨。思路看似十分简单: 对于一张graph而言,有N个node,每个node有F个feature,每个节点关注H hop以内的信息 架构: 对于 node classification 输入:H*N*N*F 第一层:(其实对于每个node而言,通过这一层的映射,会得到一个H*F的map。对于map上的每个元素,是这么得来的原创 2017-01-11 14:41:05 · 6270 阅读 · 0 评论 -
BGD vs SGD vs mini-batch GD
神经网络中梯度下降,更新权值有多种选择,BGD,SGD,mini-batch GDBGD:所有样本跑一次网络后,更新权值。这种方式优点是,精确,和loss function对应。缺点就是效率不高,慢SGD:跑一个样本更新一次权值,优点:快,缺点:因为用一个样本就更新权值,很容易就找不到全局最优解。mini-batch GD:更新跑一定两样本,更新一次权值,结合BGD和SGD综合考虑。原创 2017-02-10 18:46:12 · 1889 阅读 · 0 评论 -
CNN(Convolutional Neural Networks)学习总结
刚开始学习cnn,把前段时间看cnn相关的内容,今天稍微的总结下。在文章中差漏的地方,还望见谅。权当做交流。文章开头先推荐一个网址: https://github.com/BVLC/caffe/wiki/Model-Zoo 罗列了主流会议,近年来cnn上的相关进展和各种model,感兴趣的可以拿来阅读一番。**Cnn几篇重要的论文** Lenet-5 :Yann LeCun等在1998年发布的原创 2016-11-29 17:28:27 · 2536 阅读 · 1 评论 -
移动平均法又称滑动平均法、滑动平均模型法(Moving average,MA)
什么是移动平均法? 移动平均法是用一组最近的实际数据值来预测未来一期或几期内公司产品的需求量、公司产能等的一种常用方法。移动平均法适用于即期预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素时,移动平均法能有效地消除预测中的随机波动,是非常有用的。移动平均法根据预测时使用的各元素的权重不同 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料、逐项推移,依次计算包含一定项转载 2016-11-30 10:53:00 · 36271 阅读 · 2 评论 -
神经网络训练时精度问题
今天在tensorflow下,用三层网络结构训练mnist上的数据时,精度出现了很大偏差,在此做个记录,原因如下:1.w,b初始化为0,很可能直接导致模型失效,无法收敛。因此可以对w初始化为随机值解决2.隐藏层的激活函数应该用relu较好3.交叉熵的计算,是否取平均值问题,取平均值,就相当于除以一个常数,那么相对的cost值就较小,使得后续的学习率可以设的相对较大,也不影响精确。如果不原创 2016-11-03 21:51:58 · 15215 阅读 · 0 评论 -
论文笔记之Smart Reply: Automated Response Suggestion for Email
本文是google团队在2016年kdd上发表的一篇论文, 是对gmail中应用的自动回复功能框架进行了介绍,应用的环境就是在gmail中来了一封邮件,系统会自动推荐3个回复语句供用户选择,来方便回复。下面是整个框架的流程图: 面临的挑战:1,个性化推荐2,多样化推荐3,处理能力强4,保护用户隐私对于挑战1, 2 1)加了一项惩罚项使得一些过于简单的,回答的开头类似的response被剔除掉原创 2016-12-11 11:13:25 · 2370 阅读 · 4 评论 -
论文笔记之Deep Convolutional Networks on Graph-Structured Data
本篇论文是2015年nips上的一篇论文, 是对于其本人在2014年nips发表的论文:Deep Convolutional Networks on Graph-StructuredData 对于graph上的cnn进一步探讨。相比于之前的工作,此篇论文主要贡献有两点: 1.将之前的construction应用于大数据集的分类问题——Imagenet 2.对于输入的graph是否有标签,分别原创 2016-12-02 19:12:38 · 8311 阅读 · 1 评论 -
论文笔记之Spectral Networks and Deep Locally Connected Networks on Graphs
这是2014 nips上的一篇论文。 主要的贡献就是设计了在irregular grid上的cnn的应用。**文中有两个并列的模型:第一个模型deep locally connect network(spatial construction从空间角度去建立)locally 体现在 只取每个节点前k个neighborhoods。 connect 体现在,每层与每层之间的神经元数目是通原创 2016-12-01 20:17:29 · 15104 阅读 · 4 评论 -
cnn学习之卷积或者池化后输出的map的size计算
详细各位在学习cnn的时候,常常对于卷积或者池化后所得map的的大小具体是多少,不知道怎么算。尤其涉及到边界的时候。首先需要了解对于一个输入的input_height*input_widtht的图像,在卷积或者池化的时候,经常需要加padding,这是为了处理边界问题时而采用的一种方式,于是原输入就变成了下图所示:对于输出的size计算 如下图:out_height=(原创 2016-12-05 22:53:45 · 5482 阅读 · 0 评论 -
论文笔记之Learning Deep Representations for Graph Clustering
本篇论文是2014年AAAI的一篇论文。思想也比较简单,主要是采用SAE(栈式自编码),在graph上进行node embedding,将embedding得到的每个node的vector做为输入,进行graph cluster。论文中采用的是最常用的k-means方法来cluster。算法如下: step1 得到graph的n*n的邻接矩阵S和度矩阵Dstep2 将D’S作为SAE的输入原创 2017-01-09 19:32:56 · 3980 阅读 · 1 评论 -
数据归一化好处
数据预处理,归一化除了统一标量到(0,1)之间方便计算以外,在求loss function时还利于找到全局最优解如图:归一化前,不同标度:归一化后,相同标度:原创 2017-02-10 19:11:37 · 7878 阅读 · 0 评论 -
神经网络 动量因子
其中动量系数一般取(0,1),直观上理解就是要是当前梯度方向与前一步的梯度方向一样,那么就增加这一步的权值更新,要是不一样就减少更新。原创 2017-02-10 19:02:47 · 17014 阅读 · 1 评论 -
论文笔记之 Collaborative Deep Learning for Recommender Systems
这篇论文是KDD2015的一篇用DL去做RS的论文。想法挺有意思的。看过论文的同学都知道整体的模型可以用下图表示:这里只讲讲整体的思路与理解:1)这是一个CF和CBF结合用bayes去做2)CBF主要是体现在整个用SDAE提取item特征。3)bayes体现在,网络中的各种参数是加了一个beyas先验生成的。4)CF体现在,对于u和i这两个向量的生成,用两个不同的高斯先验,来生成,lambda_v...原创 2018-04-13 11:09:02 · 3206 阅读 · 0 评论