特征提取是指从数据中提取出有用的信息,这些信息可以用来作为训练机器学习模型的输入特征。
在 Python 中,可以使用 scikit-learn 库中的 FeatureExtractor
类来进行特征提取。例如,下面是一个简单的例子,使用 CountVectorizer
类来将文本数据转换为词频矩阵:
from sklearn.feature_extraction.text import CountVectorizer
# 定义要提取的特征
vectorizer = CountVectorizer()
# 定义文本数据
text_data = [
"The cat sat on the mat.",
"The dog ate my homework."
]
# 提取特征
features = vectorizer.fit_transform(text_data)
# 输出结果
print(vectorizer.get_feature_names())
print(features.toarray())