- 博客(4)
- 资源 (6)
- 收藏
- 关注
原创 PCA降维
1. PCA降维1.1 概念主成分分析( PrincipalComponent Analysis, PCA)或者主元分析。是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。PCA类训练一个模型,用PCA将向量投射到一个低维度空间 1.2 用处数据降维,将复杂的维度简单化,减少运算量1.3 细节Vector
2017-07-20 19:05:45 517
原创 文本词频TF-IDF
1. 文本词频TF-IDF1.1 概念词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡量重要性,很容易过度强调在文档中经常出现而并没有包含太多与文档有
2017-07-14 13:55:20 762
原创 文本词频Countvectorizer
1. 文本词频Countvectorizer1.1 概念CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer作为Estimator提取词汇进行训练,并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法,例如LDA。在CountVectori
2017-07-12 14:45:24 3125
原创 文本词频Word2Vec
1. 文本词频Word2Vec1.1 概念word2vec就是用一个一层的神经网络(CBOW的本质)把one-hot形式的词向量映射到分布式形式的词向量用来推断总体参数的统计量称为估计量(estimator)当经测定的具体数值代入估计量时,它就是一个具体的数值,称为估计值(estimate) 。an estimator is rule which before weobserv
2017-07-10 11:18:41 1373
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人