- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 word2vec
例子word2vec就是对word做了一个embedding操作,简单来说就是将原有用one-hot编码的预料库(一般来说百万级别)转为embedding形式(几百维)。 比如:维基百科预料库包含的词有100W,将其使用one-hot编码。 “The dog barked at the mailman” 基于这个句子,可以构建一个大小为5的词汇表(忽略大小写和标点符号):(“the”,
2017-12-11 13:34:18 507
原创 蓄水池算法
在一个未知的池子里选1个数字,让他们被选择概率一致。 假设n的时候,前n个数字被选择的概率都是1n \frac{1}{n} 当为n+1时候,当前n+1这个数,我们选择的概率是1n+1\frac{1}{n+1},其余数字的概率是nn+1\frac{n}{n+1},那么一共有n个数字的概率是1n\frac{1}{n} 所以 n∗1n∗1n+1=1n+1 n * \frac{1}{n} * \fr
2017-12-10 21:08:29 757
原创 LDA主题模型三连击-入门/理论/代码
本文将从三个方面介绍LDA主题模型——整体概况、数学推导、动手实现。 关于LDA的文章网上已经有很多了,大多都是从经典的《LDA 数学八卦》中引出来的,原创性不太多。 本文将用尽量少的公式,跳过不需要的证明,将最核心需要学习的部分与大家分享,展示出直观的理解和基本的数学思想,避免数学八卦中过于详细的推导。最后用python 进行实现。 概况第一部分,包括以下四部分。 为什么需要 LDA是
2017-12-10 14:38:00 1159 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人