nlp
上进的菜鸟
这个作者很懒,什么都没留下…
展开
-
文本向量化------从文本到向量
from gensim import corpora, models, similaritiesdocuments = ["Human machine interface for lab abc computer applications", "A survey of user opinion of computer system response time"...转载 2018-10-13 10:12:05 · 5213 阅读 · 0 评论 -
文本向量化---从向量到向量(tfidf)
corpus = [dictionary.doc2bow(text) for text in texts]tfidf = models.TfidfModel(corpus) # 第一步--初始化一个模型doc_bow = [(0, 1), (1, 1)]print tfidf[doc_bow] # 第二步--用模型转换向量 [(0, 0.70710678), (1, 0.7...转载 2018-10-13 10:36:04 · 5010 阅读 · 0 评论 -
中文语料库
https://www.jianshu.com/p/206caa232dedhttps://blog.csdn.net/m0epNwstYk4/article/details/78840688http://www.sogou.com/labs/resource/cs.php转载 2018-10-06 19:29:29 · 3667 阅读 · 0 评论 -
gensim的corpora.Dictionary
df_train_dict = corpora.Dictionary(try2) #建立词典 ## 如果想要过滤掉出现次数为1的词,可以使用以下代码ids=[]for key in df_train_dict.iterkeys(): if df_train_dict.dfs[key]==1: ids.append(key)df_train_dict.filter_...转载 2018-10-14 16:04:03 · 11689 阅读 · 0 评论 -
pynlpir
https://blog.csdn.net/qq_38404440/article/details/80352879解决Pynlpir分词License过期问题转载 2018-11-01 09:40:16 · 478 阅读 · 0 评论 -
TfidfVectorizer in scikit-learn : ValueError: np.nan is an invalid document
https://blog.csdn.net/ningzhimeng/article/details/80953916转载 2018-11-04 11:01:47 · 465 阅读 · 0 评论 -
自编卡方程序 sklearn里面是拟合优度检验
我这个是列联表独立性检验(针对文本)import pandas as pd#X = np.array([[1,0,1,0],[0,0,1,0],[0,1,1,0],[1,1,1,1],[1,0,1,0],[0,0,1,0]])import numpy as npimport warningsfrom numpy import matfrom scipy import special...原创 2018-12-07 22:03:30 · 1234 阅读 · 0 评论