一、目的
这份指导书的目的是为了说明scikit-learn提供的主要features,这是机器学习实践的基本知识,首先你的先按照scikit-learn库。
scikit-learn是一个开源的机器学习库,支持监督学习和非监督学习,它提供不同的工具来训练模型、数据预处理、模型选择和评估等。
二、Fitting and predicting: estimator basics
scikit-learn提供了很多机器学习算法和模型,叫做estimators,每个estimator 可以用来fit一些数据。
Here is a simple example where we fit a RandomForestClassifier to some very basic data:
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(random_state=0)
X = [[ 1, 2, 3], # 2 samples, 3 features
[11, 12, 13]]
y = [0, 1] # classes of each sample
clf.fit(X, y)
fit方法通常接受两个输入:
1.样本矩阵X,矩阵C的尺寸为(n_samples,n_features),这意味着样本代表行书(rows)特征代表列数(columns)
2.目标值y是实数回归任务或者是要分个类别
一旦estimator训练完成,就可以用来预测新个目标值,你不必重新训练estimator。
clf.predict(X) # predict classes of the training data
clf.predict([[4, 5, 6], [14, 15