参考:莫凡python
Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一.
Sklearn 包含了很多种机器学习的方式:
- Classification 分类
- Regression 回归
- Clustering 非监督分类
- Dimensionality reduction 数据降维
- Model Selection 模型选择
- Preprocessing 数据预处理
算法有四类,分类,回归,聚类,降维.
导入模块:
from sklearn import datasets
#train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和test data
from sklearn.model_selection import train_test_split
#实现了K最近邻投票算法的分类器
from sklearn.neighbors import KNeighborsClassifier
eg:
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print(knn.predict(X_test))
print(y_test)
Model 的属性和功能:
#导入模型
model = LinearRegression()
#训练模型
model.fit(data_X, data_y)
#用训练好的模型预测
print(model.predict(data_X[:4, :]))
数据标准化:
from sklearn import preprocessing #标准化数据模块