- 博客(6)
- 资源 (3)
- 收藏
- 关注
翻译 RNN初学入门笔记(1)
本篇博客翻译自http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/ 系列的第一篇,并参考了网络上的部分资源.初识RNN RNNs(Recurrent Neural NetWorks)循环神经网络是比较流行的网络模型之一,在NLP的许多任务中有着出色的表现。
2016-09-26 22:09:30 747
原创 Spark MLlib源码分析—TFIDF源码详解
以下代码是我依据SparkMLlib(版本1.6) 1、HashingTF 是使用哈希表来存储分词,并计算分词频数(TF),生成HashMap表。在Map中,K为分词对应索引号,V为分词的频数。在声明HashingTF 时,需要设置numFeatures,该属性实为设置哈希表的大小;如果设置numFeatures过小,则在存储分词时会出现重叠现象,所以不要设置太小,一般情况下设置为30w~50w之
2016-09-26 20:20:24 3195
原创 Word2Vec概述与基于Hierarchical Softmax的CBOW和Skip-gram模型公式推导
该文档是我在《Word2Vec_中的数学原理详解》基础上做的总结和一些新的描述,增加了代码与公式的对照和公式总汇(公式太多,汇总下看起来更方便),可以更加方便的加深对代码和公式理解。既然是总结,则一些很基础的知识我没有写到,如果里面的有些概念不熟悉,也可以自己查一下,网上资料还是很多的。本笔记主要是对《Word2Vec中的数学原理详解》的总结和补充,目的是加深自己的理解和认识。 1、概述 Wor
2016-09-21 18:09:56 15751 4
原创 Spark MLlib源码分析—Word2Vec源码详解
以下代码是我依据SparkMLlib(版本1.6)中Word2Vec源码改写而来,基本算是照搬。 在决定读懂源码前,博主建议读者先看一下《Word2Vec_中的数学原理详解》或者看本人根据这篇文档做的一个摘要总结。 Ps* 代码注解的很详细了,阅读代码请从类CWord2Vec的fit函数开始import java.nio.ByteBufferimport java.util.{Random
2016-09-21 17:47:36 8073 4
原创 参数估计-矩估计和极大似然估计概述
参数估计 参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。 点估计:依据样本估计总体分布中所含的未知参数或未知参数的函数。 区间估计(置信区间的估计):依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们
2016-09-10 22:38:42 65066 3
原创 BP神经网络算法推导
1、前馈神经网络、反馈神经网络、BP网络等,他们之间的关系 前馈型神经网络: 取连续或离散变量,一般不考虑输出与输入在时间上的滞后效应,只表达输出与输入的映射关系;在此种神经网络中,各神经元从输入层开始,接收前一级输入,并输入到下一级,直至输出层。整个网络中无反馈,可用一个有向无环图表示。常见的前馈神经网络有感知机(Perceptrons)、BP(Back Propagation)网络、RBF(
2016-09-07 22:14:01 5871 2
基于htmlparser的网页爬虫和java调用excel代码
2016-04-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人