NLP
雨夜繁星
这个作者很懒,什么都没留下…
展开
-
使用sklearn提取文本的tfidf特征
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, TfidfTransformer corpus = [ 'This is the first document.', 'This is the second second document.', 'And the th...原创 2019-05-14 12:45:37 · 5860 阅读 · 0 评论 -
使用预训练的word embedding
训练词向量 具体参数参考gensim实现word2vec def train_W2V(w2vCorpus, size=100): w2vModel = Word2Vec(sentences=w2vCorpus, hs=0, negative=5, min_count=5, window=8, iter=1, size=size) w2vModel.save(inPath+‘w2vM...原创 2019-05-17 17:06:37 · 4720 阅读 · 4 评论