机器学习
文章平均质量分 70
今天也要笑笑鸭
技术小白
展开
-
svm的loss推导
http://ningyuwhut.github.io/cn/2018/01/gradient-of-svm-loss/ svm的损失函数:代表的是预测不正确(j!=yi)的时候,其他类的最高预测分数+delta要尽可能的低于正确类的预测分数。我们希望wyixi - (wjxi + delta)越大越好(正确类分数要最高)。 损失的定义就是要尽可能缩小的东西,wjxi + del...原创 2018-11-30 19:17:09 · 644 阅读 · 0 评论 -
文本分类任务中tf-idf的理解
维基百科给的定义式:tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的...原创 2018-11-30 16:27:55 · 4440 阅读 · 2 评论 -
Logistic回归总结及公式推导
主要参考https://blog.csdn.net/ligang_csdn/article/details/53838743简记:sigmoid函数的值为二分类取值为1的概率。 把取值为0和为1的概率合起来得到概率分布。 按所有样本相乘,得到似然函数。 *-1/m取对数似然函数并对求偏导数。采用梯度下降法求似然函数最小值。 结论是: 就是每次减少学习率*所有样本值与误差值(预...原创 2018-11-30 15:49:51 · 1206 阅读 · 0 评论 -
gru公式及原理简记
https://blog.csdn.net/zhangxb35/article/details/70060295 GRU一共有2个门。z:更新门,取sigmoid表示以前的信息是否需要更新。 r:重置门,取sigmoid类似于LSTM的忘记门,代表以前的信息是否需要重置。h‘:输入+忘记该忘记的(ht-1 * r)新的h:更新需要更新的,不需要更新的维持。...原创 2018-12-02 22:54:15 · 10486 阅读 · 1 评论 -
lstm结构及公式
https://blog.csdn.net/lreaderl/article/details/78022724lstm一共有四个重要公式。f:忘记门,对拼接结果取sigmoid表示是否丢弃先前结果。 i:更新门,对拼接结果取sigmoid表示先前结果是否需要更新。 g:加工门,对拼接结果取tanh表示先前结果需要左何等程度更新。i与g做点乘,表示更新结果c'。f与ci-1点...原创 2018-12-02 22:44:41 · 3999 阅读 · 0 评论 -
CNN用于文本分类的原理细节
https://blog.csdn.net/chuchus/article/details/77847476卷积的三维定义通常情况下为[滤波器数量,卷积核长度, 卷积核宽度]。卷积核长度一般为time维度,也就是句子长度的维度。宽度一般为特征维度,通常情况下是词向量的维度。卷积之后的结果:filtersize*(sententenlength - kernel length ...原创 2018-12-02 22:34:23 · 820 阅读 · 0 评论 -
条件随机场(crf)相关理解
https://www.zhihu.com/question/35866596建模公式:(一套CRF由一套参数λ唯一确定(先定义好各种特征函数)) 公式中O为观测序列,是X, I为隐状态序列, 为Y。 i为观测序列第i个token,k为第k个特征。 打分:指数上的特征加权。分数越高证明序列越靠谱,所以通过分数高可以确定。HMM, MEMM,CRF的模型区别:HMM,...原创 2018-12-04 19:59:38 · 204 阅读 · 0 评论 -
朴素贝叶斯分类器原理及公式
https://blog.csdn.net/u012162613/article/details/48323777全概率公式:贝叶斯定理:,,对于分类模型,X,y。X有n维特征各自独立,y有k类(k个取值)。独立性假设:用于分类的特征在类确定下来的情况下都是独立的。分母都一样,P(yk)根据数据分布求,分子第一项的求法有两种。x的特征离散时,表示为这一类样本中某个...原创 2018-12-02 15:51:05 · 1914 阅读 · 0 评论 -
word2vec公式推导及原理简记
https://www.cnblogs.com/pinard/p/7243513.htmlhttp://www.cnblogs.com/pinard/p/7249903.htmlword2vec区别于one_hot映射方法,将词向量赋予含义并映射到向量空间,通过向量减法、点乘表示两词相差、相关性。 两种预测模型:Cbow(周围词向量预测中间词向量)和skip-gram(中间词向量预...原创 2018-12-04 14:08:25 · 943 阅读 · 1 评论 -
Convolution Neural Networks for sentence Classification(yoon-kim)论文总结
论文思路就是把广泛应用在图像领域的cnn尝试在文本上应用,用一层conv1d+max_pooling1d+fully connected+softmax的简单结构,在很多经典的文本分类问题上都取得了非常不错的效果。结果如下图: 博主对论文的仿真的大致过程是:首先对数据集进行处理,X是(影评数,最长句的长度,word2vec的维度)这样的一个三位矩阵,而y是(影评数,)的向量。那过程很清晰,先把原创 2017-10-26 13:06:23 · 888 阅读 · 0 评论 -
Batch Normalization的前向和反向传播过程
为什么要batch normalization?前向传播反向传播1.batch normalization的原理 在反向传播的过程中,是一个w不断叠乘的结果,因为在传播过程中w时一个不确定范围的数值。在反向传播的过程中,如果w多数大于1,会造成梯度爆炸,大多数大于0小于1,会梯度弥散。 为了解决这个问题,就有了Batch Normalization的思想。假设: wunknown=α原创 2017-09-28 11:02:40 · 5590 阅读 · 0 评论 -
k-fold与交叉验证
https://zhuanlan.zhihu.com/p/24825503常用的是对标注数据集做7:3划分训练集和验证集,只用了一部分数据,且结果很大程度上依赖于选取的数据。 LOOCV(Leave-one-out cross-validation):每次用一个样本测试,其他数据训练。计算量太大。 k_fold cv (k-fold cross validation) :把数据分K份,...原创 2018-12-05 11:34:03 · 1482 阅读 · 0 评论 -
优化方法公式及简记
写在前面:随机梯度下降是最经典的优化算法,从公式来讲接下来的其他算法都是根据它可以修改、完善的。详见:https://blog.csdn.net/SecondLieutenant/article/details/81537772,L:N个样本的Loss和求均值。一会用反向梯度更新。1.GD(梯度下降)BGD:用所有样本去更新参数。 SGD:随机采取一个样本更新参数。速...原创 2018-12-07 21:52:40 · 1555 阅读 · 0 评论 -
机器学习的一些性能评价指标
分类1.精确率,准确率,召回率,F1-score。TP(True postive),真正的正样本,实际为正,预测为正。 FP(False positive), 假的正样本,实际为负,预测为正。 TN(True negative),真的负样本,实际为负,预测为负。 FN(False negative),假的负样本,实际为正,预测为负。 精确率:正确预测的样本/总样本 = (TP + ...原创 2018-12-05 18:34:06 · 705 阅读 · 0 评论 -
similarities.SparseMatrixSimilarity源码解析
def __init__(self, corpus, num_features=None, num_terms=None, num_docs=None, num_nnz=None, num_best=None, chunksize=500, dtype=numpy.float32, maintain_sparsity=False): ""...原创 2019-04-02 13:54:14 · 4205 阅读 · 0 评论 -
gensim + tfidf计算句子之间相似度
def get_tfidf(words_lists): texts = words_lists dictionary = corpora.Dictionary(texts) feature_cnt = len(dictionary.token2id) corpus = [dictionary.doc2bow(text) for text in texts...原创 2019-04-02 11:39:01 · 4445 阅读 · 1 评论 -
PageRank原理及其文本摘要提取中的应用
PageRank原理:被更多网页链接的网页排名应该靠前。 被排名靠前的网页链接的网页重要性也应该提升。 一个网页的排名等于所有链接到该网页的网页的加权排名之和。 映射到文本领域:网页内容 能和更多句子中的词相似的句子重要性大。令W为转移矩阵,由句子之间相似度计算得来。初始状态为均匀分布。直到p收敛,得到pagerank分数。D = [s1, s2, s3 …, sN...原创 2019-04-02 13:19:51 · 647 阅读 · 0 评论 -
隐马尔可夫模型(HMM)详解
写在前面:最近在看这位“血影雪梦”博主对HMM的理解,博客写得非常好,献上链接。在此不重复造轮子,只为个人记忆撰写以下内容。https://blog.csdn.net/xueyingxue001/article/details/51435728,基本概念。https://blog.csdn.net/xueyingxue001/article/details/51435752,概率计算方法。...原创 2018-12-26 17:11:18 · 368 阅读 · 0 评论 -
激活函数
激活函数的作用:将线性的神经网络通过附加激活函数可以逼近任何非线性函数。1.sigmoid(, )函数不关于原点中心对称,收敛速度慢。 导数很容易接近0,造成梯度消失。 含有指数,计算量大。2.tanh( ) 关于原点中心对称,收敛速度好一些。 梯度消失问题和计算量大的问题依然存在。3.relu(relu(x) = max(0,x))学习率大的时候,很可能造成网络中很...原创 2018-12-09 15:39:27 · 226 阅读 · 1 评论 -
防止过拟合和欠拟合的方法
防止过拟合Early stop。增加验证集,验证集性能没有明显提升的时候停止。 增大数据集。常见的是增加一些噪声构造新样本,重采样,从源头采集,以及分析数据分布构造更多假数据。 正则化。为了降低模型复杂度,避免过分拟合训练数据,包括噪声和异常点。 dropout。随机丢弃一些神经元,避免过度赖某些数据特征。防止欠拟合添加其他特征 添加多项式特征组合 减少正则化参数...原创 2018-12-09 12:19:16 · 647 阅读 · 0 评论 -
LR是如何实现多分类的
https://www.cnblogs.com/lianyingteng/p/7784158.htmlone vs one: n个分类,训练n(n-1)个分类器,两两比较。最终投票决定最终类。 one vs all:n个分类n个分类器,表示是或不是这个分类器的概率,最终选择概率最大的作为最终类。 softmax:归一化的one vs all。k=2时是lr。 类别互斥,用softma...原创 2018-12-06 12:06:19 · 3196 阅读 · 0 评论 -
几种聚类算法原理简述:kmeans(以及++),DBSCAN,层次聚类
kmeans和kmeans++参数:k(聚类个数)随机选取K个中心点。(KMEANS++会在选取一个中心点后更倾向于去选择离选定中心点更远的) 计算其他点离哪个中心点更近,就算做哪一簇。 计算每个新簇的新中心点(取平均)。 重新调整除中心点外的归属情况。 直到每次分簇情况相同或者中心点收敛。DBSCAN参数:MINPTS,r某个点要成为中心点,他需要有多少个在以这个点为圆...原创 2018-12-05 22:14:26 · 956 阅读 · 0 评论 -
softmax的loss和gradient推导过程
softmax的loss和gradient推导过程 相信搞deeplearning的各位大牛都很熟悉softmax了,用来对得分矩阵做归一化得到概率的一种分类手段,我这两天在做cs231n的作业,新手上路,只作为自己的学习足迹记录,还望各位大佬多多包涵。简单介绍Softmax的loss计算Softmax的grad计算naive loopvectorization简单介绍 这个公式是大原创 2017-09-25 16:55:58 · 5437 阅读 · 2 评论