自然语言
qq_30868235
这个作者很懒,什么都没留下…
展开
-
Scikit-learn CountVectorizer与TfidfVectorizer
本文主要介绍两个类的基本使用,CountVectorizer与TfidfVectorizer,这两个类都是特征数值计算的常见方法。对于每一个训练文本,CountVectorizer只考虑每种词汇在该训练文本中出现的频率,而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外,同时关注包含这个词汇的其它训练文本数目的倒数。相比之下,训练文本的数量越多,TfidfVectori...转载 2018-06-04 20:56:55 · 536 阅读 · 0 评论 -
用Python进行简单的文本相似度分析
用Python进行简单的文本相似度分析学习目标:利用gensim包分析文档相似度使用jieba进行中文分词了解TF-IDF模型环境:Python 3.6.0 |Anaconda 4.3.1 (64-bit)工具:jupyter notebook注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。首先引入分词API库jieba、文本相似度库gensimimport...转载 2018-06-09 20:40:55 · 1105 阅读 · 0 评论 -
gensim做主题模型
gensim做主题模型作为python的一个库,gensim给了文本主题模型足够的方便,像他自己的介绍一样,topic modelling for humans具体的tutorial可以参看他的官方网页,当然是全英文的,http://radimrehurek.com/gensim/tutorial.html由于这个链接打开速度太慢太慢,我决定写个中文总结:(文章参考了52nlp的博客,参看http...转载 2018-06-09 15:30:54 · 213 阅读 · 0 评论 -
用Python进行简单的文本相似度分析
用Python进行简单的文本相似度分析2018年01月18日 10:11:15阅读数:3034学习目标:利用gensim包分析文档相似度使用jieba进行中文分词了解TF-IDF模型环境:Python 3.6.0 |Anaconda 4.3.1 (64-bit)工具:jupyter notebook注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。首先引入分词...转载 2018-06-08 22:41:25 · 1016 阅读 · 0 评论 -
手把手教你学Word2Vec系列一之Corpora and Vector Spaces
[说明]其实Word2Vec非常有用,使用起来也很简单,但总有一些跟我一样懒的娃娃不爱看文档,所以就有了这一系列博客。 Python下的Word2Vec的使用需要安装gensim,安装教程:gensim官网安装教程 本人英文水平有限,还是建议看官方教程,gensim官网使用教程语料与向量空间日志记录:import logginglogging.basicConfig(format='%(asc...转载 2018-06-08 22:18:35 · 391 阅读 · 0 评论 -
gensim使用方法以及例子
阅读数:25007gensim是一个python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式,以便进行进一步的处理。此外,gensim还实现了word2vec功能,能够将单词转化为词向量。关于词向量的知识可以看我之前的文章关于gensim的使用方法,我是根据官网的资料来看的,思路也是跟着官网tutorial走的,英文好的或者感觉我写的不全面的可以去官网看1...转载 2018-06-08 21:37:57 · 595 阅读 · 0 评论 -
利用sklearn训练LDA主题模型及调参详解
利用sklearn训练LDA主题模型及调参详解2017年07月31日 15:50:22阅读数:9400人生苦短,我爱python,尤爱sklearn。sklearn不仅提供了机器学习基本的预处理、特征提取选择、分类聚类等模型接口,还提供了很多常用语言模型的接口,sklearn.decomposition.LatentDirichletAllocation就是其中之一。本文除了介绍LDA模型的基本参...转载 2018-06-14 11:17:38 · 4246 阅读 · 2 评论 -
利用sklearn训练LDA主题模型及调参详解
利用sklearn训练LDA主题模型及调参详解2017年07月31日 15:50:22阅读数:9400人生苦短,我爱python,尤爱sklearn。sklearn不仅提供了机器学习基本的预处理、特征提取选择、分类聚类等模型接口,还提供了很多常用语言模型的接口,sklearn.decomposition.LatentDirichletAllocation就是其中之一。本文除了介绍LDA模型的基本参...转载 2018-06-14 11:13:18 · 3575 阅读 · 3 评论 -
用scikit-learn学习LDA主题模型
用scikit-learn学习LDA主题模型 在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn, 还有spark MLlib和gensim库也有LDA主题模型的类库,使用的原理基本类似,本文关注于scikit-learn中LDA主题模型的使用。1. scikit-learn LDA主题模...转载 2018-06-14 10:41:48 · 704 阅读 · 1 评论 -
NLP 设置停用词表及使用CountVectorizer计算Tf-Idf权值
NLP 设置停用词表及使用CountVectorizer计算Tf-Idf权值(7) 为了便于理解Tf-Idf权值计算和词袋的数据结构,我们先看一个例子程序:1. 导入训练集2. 从文件导入停用词表,并转换为list3. 创建词袋数据结构,并配置停用词表 4. 统计每个词语的tf-idf权值代码:tf-idf_test.py # -*- coding: utf-8 -*- import sys i...转载 2018-06-14 10:23:27 · 6120 阅读 · 0 评论 -
Scikit-learn:Feature extraction文本特征提取
Scikit-learn:Feature extraction文本特征提取2014年12月16日 11:11:30阅读数:22050http://blog.csdn.net/pipisorry/article/details/41957763文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大...转载 2018-06-14 10:15:46 · 295 阅读 · 0 评论 -
机器学习之路:python 文本特征提取 CountVectorizer, TfidfVectorizer
机器学习之路:python 文本特征提取 CountVectorizer, TfidfVectorizer 本特征提取: 将文本数据转化成特征向量的过程 比较常用的文本特征表示法为词袋法词袋法: 不考虑词语出现的顺序,每个出现过的词汇单独作为一列特征 这些不重复的特征词汇集合为词表 每一个文本都可以在很长的词表上统计出一个很多列的特征向量 如果每个文本都出现的词...转载 2018-06-14 10:12:07 · 2055 阅读 · 0 评论 -
word2vec 构建中文词向量
word2vec 构建中文词向量词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量。一、中文语料库本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/r...转载 2018-06-04 22:37:05 · 522 阅读 · 0 评论 -
【数据挖掘】特征抽取之NMF
2013年08月12日 10:43:54阅读数:2091矩阵分解:找到两个更小的矩阵,两者相乘可以重新构造这个矩阵。特征矩阵:每一行一个特征,每一列一个item,这些值代表了item对此特征的重要性。权重矩阵:此矩阵映射特征到aricle矩阵。每行是一个aritcle,每一列是一个特诊,此矩阵反映了多少个特征应用到aritcle上。矩阵重新构建[python] view plain copy#!/...转载 2018-06-04 21:38:24 · 789 阅读 · 0 评论 -
Python中的TfidfVectorizer参数解析
vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿,当然这里面不足是可以做这些transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))#vectorizer.fit_trans...转载 2018-06-04 21:15:18 · 5688 阅读 · 0 评论 -
文本挖掘预处理之TF-IDF
在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。1. 文本向量化特征的不足 在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,比如在文本挖掘预处理之向量化与Hash Trick这篇文章中,我们...转载 2018-06-04 21:04:27 · 178 阅读 · 0 评论 -
tf-idf:sklearn中TfidfVectorizer使用
程序import jiebafrom sklearn.feature_extraction.text import TfidfVectorizercorpus = []data_file="./tfidf-data.txt"with open(data_file, 'r') as f: for line in f: corpus.append(" ".join(...转载 2018-06-04 20:58:43 · 1210 阅读 · 0 评论 -
Python正则表达式---全部能匹配的子串迭代器finditer及findall及以中文匹配部分中文
Python正则表达式---全部能匹配的子串迭代器finditer及findall及以中文匹配部分中文一、正则匹配:findall,finditerfindall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]):搜索string,以列表形式返回全部能匹配的子串。finditer(string[, pos[, endpo...转载 2018-06-10 15:55:23 · 1449 阅读 · 0 评论