转载自:http://blog.csdn.net/hutao1101175783/article/details/74618205
class sklearn.feature_extraction.text.
TfidfVectorizer
(input = u'content',encoding = u'utf-8',decode_error = u'strict',strip_accents = None,lowercase = True,preprocessor = None,tokenizer = None,analyzer = u'word',stop_words =无,token_pattern = U '(?U)\ b \瓦特\ W + \ b' ,ngram_range =(1,1) ,max_df = 1.0,min_df = 1,max_features =无,词汇=无,二进制=假,D型= <type'numpy.int64'>,norm = u'l2',use_idf = True,smooth_idf = True,sublinear_tf = False )
将原始文档的集合转换为TF-IDF功能的矩阵。
相当于CountVectorizer,后跟TfidfTransformer。
在“ 用户指南”中阅读更多内容。
参数: | input:string {'filename','file','content'}
encoding:string,'utf-8'。
decode_error:{'strict','ignore','replace'}
strip_accents:{'ascii','unicode',无}
analyzer:string,{'word','char'}或可调用
预处理器:可调用或无(默认)
tokenizer:可调用或无(默认)
ngram_range:tuple(min_n,max_n)
stop_words:string {'english'},list或None(默认)
小写:布尔值,默认值为True
token_pattern:string
max_df:float in range [ 0.0,1.0 ]或int,default = 1.0
min_df:float in range [ 0.0,1.0 ]或int,default = 1
max_features:int或None,default = None
词汇表:映射或迭代,可选
binary:boolean,default = False
dtype:type,可选
规范:'l1','l2'或无,可选
use_idf:boolean,default = True
smooth_idf:boolean,default = True
sublinear_tf:boolean,default = False
|
---|---|
属性: | vocabulary_:dict
idf_:array,shape = [n_features]或者None
stop_words_:set
|
也可以看看
- 验证文件并计算令牌的出现次数并将其作为稀疏矩阵返回
- 将术语频率逆序文档频率归一化为发生次数的稀疏矩阵。
CountVectorizer
TfidfTransformer
笔记
stop_words_
当酸洗时,属性可以变大并增加模型大小。此属性仅用于内省提供,并且可以使用delattr安全删除或在酸洗之前设置为None。
方法
build_analyzer () | 返回处理预处理和标记化的可调用 |
build_preprocessor () | 返回一个函数,以便在标记化之前对文本进行预处理 |
build_tokenizer () | 返回一个将字符串分成令牌序列的函数 |
decode (DOC) | 将输入解码为一串Unicode码元 |
fit (raw_documents [,y]) | 从训练集学习词汇和idf。 |
fit_transform (raw_documents [,y]) | 学习词汇和idf,返回术语文档矩阵。 |
get_feature_names () | 从特征整数索引到特征名称的数组映射 |
get_params ([深]) | 获取此估计器的参数。 |
get_stop_words () | 构建或获取有效的停止词列表 |
inverse_transform (X) | 每个文档在X中返回非零条目的条款。 |
set_params (\ * \ * PARAMS) | 设置该估计器的参数。 |
transform (raw_documents [,copy]) | 将文档转换为文档术语矩阵。 |
__init__
(input = u'content',encoding = u'utf-8',decode_error = u'strict',strip_accents = None,lowercase = True,preprocessor = None,tokenizer = None,analyzer = u'word',stop_words = None,token_pattern = U '(?U)\\ b \\瓦特\\ W + \\ b' ,ngram_range =(1,1) ,max_df = 1.0,min_df = 1,max_features =无,词汇=无,二进制=假,dtype = <type'numpy.int64'>,norm = u'l2',use_idf = True,smooth_idf = True,sublinear_tf = False
)
[source]
-
返回处理预处理和标记化的可调用
build_analyzer
(
)
[source]
-
返回一个函数,以便在标记化之前对文本进行预处理
build_preprocessor
(
)
[source]
-
返回一个将字符串分成令牌序列的函数
build_tokenizer
(
)
[source]
-
将输入解码为一串Unicode码元
解码策略取决于矢量化器参数。
decode
(doc
)
[来源]
-
从训练集学习词汇和idf。
参数: raw_documents:iterable
一个可以产生str,unicode或文件对象的迭代
返回: 自我:TfidfVectorizer
fit
(raw_documents,y = None
)
[source]
-
学习词汇和idf,返回术语文档矩阵。
这相当于fit,然后变换,但更有效地实现。
参数: raw_documents:iterable
一个可以产生str,unicode或文件对象的迭代
返回: X:稀疏矩阵,[n_samples,n_features]
Tf-idf加权文档项矩阵。
fit_transform
(raw_documents,y = None
)
[source]
-
从特征整数索引到特征名称的数组映射
get_feature_names
(
)
[source]
-
获取此估计器的参数。
参数: deep:boolean,可选
如果为True,将返回此估计器的参数,并包含作为估计量的子对象。
返回: params:将字符串映射到任何
参数名映射到它们的值。
get_params
(deep = True
)
[source]
-
构建或获取有效的停止词列表
get_stop_words
(
)
[source]
-
每个文档在X中返回非零条目的条款。
参数: X:{array,sparse matrix},shape = [n_samples,n_features]
返回: X_inv:数组列表,len = n_samples
术语数组列表。
inverse_transform
(X
)
[来源]
-
设置该估计器的参数。
该方法适用于简单的估计器以及嵌套对象(如管道)。后者具有表单的参数,
<component>__<parameter>
以便可以更新嵌套对象的每个组件。返回: 自我:
set_params
(**参数
)
[来源]
-
将文档转换为文档术语矩阵。
使用由fit(或fit_transform)学习的词汇和文档频率(df)。
参数: raw_documents:iterable
一个可以产生str,unicode或文件对象的迭代
copy:boolean,default True
是否复制X并对副本进行操作或执行就地操作。
返回: X:稀疏矩阵,[n_samples,n_features]
Tf-idf加权文档项矩阵。
transform
(raw_documents,copy = True
)
[source]