机器学习算法
文章平均质量分 88
蜡笔大龙猫
这个作者很懒,什么都没留下…
展开
-
CS224D 课程学习笔记 L05
Lecture 5. Neural Networks这节课我们将要学习神经网络。教授本节课slides是按照单层神经网络的前向计算、损失函数、后向计算,两层神经网络的前向计算,损失函数,后向计算两个方面来讲解以及推导梯度公式。notes III是按照神经元、单层神经网络、最大间隔目标函数、元素级别的后向传播训练、向量级别的后向传播训练这些神经网络的基础来讲解。因为本章的Back Propagat...原创 2019-01-06 17:52:49 · 495 阅读 · 2 评论 -
CS224D 课程学习笔记 L03
Lecture 3. More Word VectorsLecture 3 这节课首先复习了上节课学到的word2vec模型,以及使用梯度下降和SGD优化参数,然后介绍了词向量的内部评测和外部评测,参数对于类比评测任务的影响,处理词义的模糊性和窗口分类等。文章目录Lecture 3. More Word Vectors梯度的更新词向量的评测内部评测 vs 外部评测内部评测示例:词向量的类比内部...原创 2018-12-16 18:42:14 · 290 阅读 · 0 评论 -
CS224D 课程学习笔记 L02
Lecture 2 主要介绍了传统的共现矩阵生成词向量方法和迭代生成词向量的方法,例如word2vec和Glove。文章目录Word Vectorsone-hot vector共现矩阵共现矩阵存在的问题SVDSVD存在的问题word2vec*word2vec的神奇之处*Glove几种得到词向量方法的对比Iteration Based Method一元、二元语言模型CBOWSkip-gramNeg...原创 2018-12-09 19:49:42 · 856 阅读 · 2 评论 -
文本分类算法--朴素贝叶斯
贝叶斯定理贝叶斯定理用公式表示:p(Y|X)=P(X|Y)P(Y)p(X)p(Y|X) = \frac{P(X|Y)P(Y)}{p(X)}其中,p(Y)p(Y)是先验概率,P(Y|X)P(Y|X)是后验概率,也就是要求的概率。朴素贝叶斯算法原理朴素贝叶斯分类算法是一种生成模型。训练的过程是学习联合概率分布p(x,y)p(x, y),预测的时候使用贝叶斯法则计算条件概率p(y|x)p(y|x),选择条原创 2017-02-21 11:33:30 · 1413 阅读 · 0 评论 -
开源项目kcws代码分析--基于深度学习的分词技术
分词原理本小节内容参考待字闺中的两篇博文:97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)如何深度理解Koth的深度分词?简单的说,kcws的分词原理就是:对语料进行处理,使用word2vec对语料的字进行嵌入,每个字特征为50维。得到字嵌入后,用字嵌入特征喂给双向LSTM, 对输出的隐层加一个线性层,然后加一个CRF就得到本文实现的模型。于最优化方法,文本语言模型类原创 2016-12-01 18:01:09 · 11832 阅读 · 3 评论 -
关键词提取综述
关键词提取综述本文资料来自于一篇2014年的论文Automatic Keyphrase Extraction:A Survey of the State of the Art主要选取提取关键词算法的部分,不涉及评价以及数据集等。关键词提取一般有两个阶段,第一阶段是生成关键词候选集,第二阶段是采用监督学习或者非监督学习算法来选择关键词。1. 生成关键词候选集(1). 去除停用词 (2). 只提取指定原创 2016-11-18 17:33:31 · 6790 阅读 · 0 评论 -
LDA理解以及源码分析(一)
LDA系列的讲解分多个博文给出,主要大纲如下:LDA相关的基础知识 什么是共轭multinomial分布Dirichlet分布LDA in text LAD的概率图模型LDA的参数推导伪代码GibbsLDA++-0.2源码分析Python实现GibbsLDA参考资料LDA相关的基础知识LDA是Blei于2002年发表的概率语言模型,被广泛应用于主题建模中,通过对文本进行潜语义原创 2015-12-09 17:27:15 · 17219 阅读 · 1 评论 -
LDA理解以及源码分析(二)
LDA系列的讲解分多个博文给出,主要大纲如下:LDA相关的基础知识 什么是共轭multinomial分布Dirichlet分布LDA in text LAD的概率图模型LDA的参数推导伪代码GibbsLDA++-0.2源码分析Python实现GibbsLDA参考资料GibbsLDA++-0.2源码分析GibbsLDA++-0.2工具包下载地址为:下载工具包里docs文件夹里有原创 2015-12-09 17:31:13 · 6753 阅读 · 1 评论 -
文本特征提取方法研究
http://blog.csdn.net/tvetve/article/details/2292111一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统转载 2013-05-13 12:51:53 · 2829 阅读 · 1 评论 -
CS224D 课程学习笔记 L06
Lecture 6. Neural Tips and TricksLecture 6主要介绍了深度学习应用的一些小技巧,例如多任务训练、梯度检测、正则化、多种激活函数、参数初始化、学习速率等。文章目录Lecture 6. Neural Tips and Tricks多任务学习(也叫权重共享)梯度检测正则化非线性神经元SigmoidTanhHard TanhSoft signReLuLeaky...原创 2019-01-12 22:42:03 · 368 阅读 · 0 评论