机器学习 官方网站 scikit-learn.org
机器学习 中文网站 scikit-learn.org.cn
SciPy 是一个开源的 Python 科学计算库,其中涵盖了科学计算中的各种工具,包括统计、积分、插值、最优化,图像处理等等。
SciPy 可以与 NumPy 合作,高效地进行矩阵计算。而各种不同领域的开发者们,在 SciPy 的基础上发展出许多分支版本,统一称为 Scikits,即 SciPy 工具箱。
而其中应用最广,也是机器学习领域最知名的分支版本,就是 Scikit-learn。
Scikit-learn 是基于 Numpy 与 SciPy 两大著名工具包,通常与 pandas、Matplotlib 等开源数据处理框架合作,进行数据挖掘任务。
安装好 Anaconda 后,可以使用 pip 命令直接安装 Scikit-learn,命令如下:
pip install scikit-learn
Linux 上: sudo pip install -U scikit-learn
Scikit-learn 的简写为 sklearn,所以在 Python 中导入 Scikit-learn 的语法为:
import sklearn
通常使用以下方法:
from sklearn import xxx
机器学习中文网站 可见
用户指南
1.有监督学习
2.无监督学习
3.模型选择与评估
4.检验
5.可视化
6.数据集转换
7.数据集加载实用程序
8.使用scikit-learn计算
API
案例
编写 test_sklearn_1.py 如下
# -*- coding: utf-8 -*-
""" 乳腺癌数据集 """
#from sklearn.datasets import load_breast_cancer
from sklearn import datasets
ds = datasets.load_breast_cancer(as_frame=True)
df = ds['data']
df.columns = [x.replace(' ','_') for x in df.columns]
df['target'] = ds['target']
print(df.head())
运行 python test_sklearn_1.py