- 博客(12)
- 资源 (20)
- 收藏
- 关注
转载 《致橡树》-舒婷
我如果爱你——绝不像攀援的凌霄花,借你的高枝炫耀自己:我如果爱你——绝不学痴情的鸟儿,为绿荫重复单调的歌曲;也不止像泉源,常年送来清凉的慰藉;也不止像险峰,增加你的高度,衬托你的威仪。甚至日光。甚至春雨。不,这些都还不够!我必须是你近旁的一株木棉,做为树的形象和你站在一起。根,紧握在地下,叶,相触在云里。每一阵风过,我们都互相致意,但没有人听懂我们的言语。你...
2019-01-18 18:38:13 256
原创 NLP | gensim库 gensim for NLP
目录0 例子1 语料库和向量空间2 主题和转换3 相似性查询4 英语维基百科上的实验5 分布式计算0 Quick Example#import logging#logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)from gensim import...
2019-01-18 09:59:26 678
原创 NLP | Word2Vec之基于Negative Sampling的 CBOW 和 skip-gram 模型
前面介绍了基于Hierarchical Softmax的 skip-gram 和 CBOW 模型,虽然我们使用霍夫曼树代替传统的神经网络,可以提高模型训练的效率。但是如果我们的训练样本里的中心词www是一个很生僻的词,那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树,将模型变的更加简单呢?Negative Sampling就是这么一种求解word2vec模型的方法,它摒...
2019-01-16 09:19:49 950 1
原创 NLP | Word2Vec之基于Hierarchical Softmax的 skip-gram 和 CBOW 模型
主要介绍Word2Vec中的Skip-Gram模型和CBOW模型。总结来说,skip-gram是用中心词预测周围词,预测的时候是一对word pair,等于对每一个中心词都有K个词作为output,对于一个词的预测有K次,所以能够更有效的从context中学习信息,但是总共预测K*V词。CBOW模型中input是context(周围词),而output是中心词。因此,skip gram的训练时间更...
2019-01-15 10:41:42 1334
原创 NLP | 词袋模型 Bag of words model
词袋模型是用于自然语言处理和信息检索(IR)的简化表示。 在这个模型中,一个文本(比如一个句子或文档)表示为它的词袋,不考虑语法,甚至语序,但保持多样性。词袋模型通常用于文档分类方法,其中每个单词的出现(频率)被用作训练分类器的特征。(1) John likes to watch movies. Mary likes movies too.(2) John also likes to wa...
2019-01-11 18:41:11 1209
翻译 Gibbs sampling
Gibbs sampling在统计学中,吉布斯采样或吉布斯采样器是马尔可夫链蒙特卡罗(MCMC)算法。在直接采样困难时,从指定的多变量概率分布近似的获得一个观测序列。 该序列可用于近似联合分布(例如,以产生所述分布的直方图); 近似其中一个变量的边际分布,或变量的某个子集(例如,未知参数或潜在变量); 或计算积分(例如,一个变量的期望值)。 通常,一些变量对应于其值已知的观察,因此不需要进行采样...
2019-01-09 14:31:21 1366
原创 中文/英文文本挖掘预处理流程总结
中文与英文文本挖掘的特点第一,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词,在文本挖掘的分词原理中,我们已经讲到了中文的分词原理,这里就不多说。第二,中文的编码不是utf8,而是unicode。这样会导致在分词的时候,和英文相比,我们要处理编码的问题。1 中文文本挖掘预处理流程1.1 数据收集...
2019-01-07 14:53:26 1812
转载 文本挖掘预处理之向量化与Hash Trick
在文本挖掘的分词原理中,我们讲到了文本挖掘的预处理的关键一步:“分词”,而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick,本文我们就对向量化和特例Hash Trick预处理方法做一个总结。1. 词袋模型在讲向量化与Hash Trick之前,我们先说说词袋模型(Bag of Words,简称BoW)。词袋模型假设我们不考虑文本中词与词...
2019-01-07 11:19:49 359
原创 SVD分解——>潜在语义分析LSA(I)——>概率性潜在语义分析PLSA(I)
SVD分解正交矩阵:若一个方阵其行与列皆为正交的单位向量,则该矩阵为正交矩阵,且该矩阵的转置和其逆相等。两个向量正交的意思是两个向量的内积为 0。正定矩阵:如果对于所有的非零实系数向量 zzz,都有zTAz>0z^TAz>0zTAz>0,则称矩阵AAA是正定的。正定矩阵的行列式必然大于 0,所有特征值也必然 > 0。相对应的,半正
2019-01-06 20:37:14 3399
原创 LDA模型应用、问题、评估
LDA主题模型及python实现介绍了LDA模型的基本原理与Sklearn实现流程。1 应用聚类:主题是聚类中心,文章和多个类簇(主题)关联。聚类对整理和总结文章集合很有帮助。参看Blei教授和Lafferty教授对于Science杂志的文章生成的总结。点击一个主题,看到该主题下一系列文章。特征生成:LDA可以生成特征供其他机器学习算法使用。LDA为每一篇文章推断一个主题分布;K个主...
2019-01-06 09:45:43 3076 1
原创 LDA主题模型及python实现
LDA(Latent Dirichlet Allocation)中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是一种非监督机器学习技术。它认为一篇文档是有多个主题的,而每个主题又对应着不同的词。一篇文档的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词,这样就生成了这篇文档的第一个词。不断重复这个过程,就生成了整篇文章(当然这里假定词与词之间是...
2019-01-05 21:58:36 36941 6
tensorflow-DeepFM-master.zip
2019-03-22
LDA主题模型.zip
2019-01-05
推荐相关.zip
2018-10-28
精益数据分析1.pdf
2018-10-14
集体智慧编程.pdf
2018-10-14
推荐系统实践.pdf
2018-10-10
受限玻尔兹曼机笔记.pdf
2018-04-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人