NLP
PerpetualLearner
这个作者很懒,什么都没留下…
展开
-
(2019.11.18已解决)NotImplementedError: jieba: parallel mode only supports posix system
posix system可移植操作系统接口(Portable Operating System Interface,POSIX)是IEEE为要在各种UNIX操作系统上运行软件,而定义API的一系列互相关联的标准的总和,正式称呼为IEEE Std 1003,国际标准名称为ISO/IEC 9945.其中,X表明其对Unix API的传承。Linux与WindowsLinux基本上逐步实...原创 2019-11-18 19:33:45 · 4798 阅读 · 0 评论 -
[译]sklearn.feature_extraction.text.CountVectorizer
`class sklearn.feature_extraction.text.CountVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None,...翻译 2019-06-18 18:57:35 · 427 阅读 · 0 评论 -
[译]sklearn.feature_extraction.text.TfidfVectorizer
class TfidfVectorizer官方文档class sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, toke...翻译 2019-06-25 14:15:41 · 421 阅读 · 0 评论 -
[译]sklearn.decomposition.TruncatedSVD
sklearn.decomposition.TruncatedSVDclass sklearn.decomposition.TruncatedSVD(n_components=2, algorithm=’randomized’, n_iter=5, random_state=None, tol=0.0)采用阶段奇异值分解SVD降维。与PCA相比,这种方式再计算SVD之前不指定数据中心...翻译 2019-06-25 15:19:52 · 3928 阅读 · 0 评论 -
NLP常见单词翻译、自然语言处理入门
本文系转载,原文链接。本文主要介绍自然语言处理(Natural Language Processing:NLP)中的一些最基础的概念,可以帮助读者在整体上感知这一领域,算是一篇入门读物。词库Vocabulary,表示所有词的集合。一般而言,经过one-hot encoding之后的向量的长度即为词库的大小。语料库Corpus,由词库里所有的词组成的句子,短语等语料信息,可以简单理解为...原创 2019-06-24 17:33:24 · 3242 阅读 · 0 评论 -
初次理解GloVe及其与word2vec区别
GloVe: Global Vectors for Word Representation1进行词的向量化表示,使得向量之间尽可能多的蕴含语义和语法的信息。GloVe是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义...原创 2019-06-24 17:49:25 · 3589 阅读 · 0 评论