CountVectorizer 是一个用于处理文本数据的类,它可以将文本数据中的每个词语转换为一个特征向量。
示例如下:
from sklearn.feature_extraction.text import CountVectorizer
# 定义要处理的文本数据
text_data = ['I love machine learning.', 'I love data science.', 'I love Python.']
# 实例化 CountVectorizer 类
vectorizer = CountVectorizer()
# 调用 fit_transform 方法处理文本数据
vectors = vectorizer.fit_transform(text_data)
# 输出结果
print(vectors.toarray())
print(vectorizer.vocabulary_)