十分钟上手sklearn:安装,获取数据,数据预处理

本文介绍了sklearn的安装、获取数据(包括导入和创建数据集)以及数据预处理的步骤,如归一化和正则化。sklearn是Python中的机器学习库,提供分类、回归、聚类等功能。文章通过实例展示了如何使用sklearn进行数据集划分和预处理操作。
摘要由CSDN通过智能技术生成

sklearn是机器学习中一个常用的python第三方模块,对常用的机器学习算法进行了封装
其中包括:
1.分类(Classification)
2.回归(Regression)
3.聚类(Clustering)
4.数据降维(Dimensionality reduction)
5.常用模型(Model selection)
6.数据预处理(Preprocessing)
本文将从sklearn的安装开始讲解,由浅入深,逐步上手sklearn。

sklearn官网:http://scikit-learn.org/stable/index.html
sklearn API:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing

skleran安装

sklearn的目前版本是0.19.1
依赖包:
Python (>=2.6或>=3.3)
NumPy(>=1.6.1)
SciPy(>=0.9)

使用pip安装,terminal直接执行即可

pip install -U scikit-learn

使用Anaconda安装,推荐Anaconda,因为里面已经内置了NumPy,SciPy等常用工具

conda install scikit-learn

安装完成后可以在python中检查一下版本,import sklearn不报错,则表示安装成功

>>import sklearn
>>sklearn.__version__
'0.19.1'

获取数据

机器学习算法往往需要大量的数据,在skleran中获取数据通常采用两种方式,一种是使用自带的数据集,另一种是创建数据集

导入数据集

sklearn自带了很多数据集,可以用来对算法进行测试分析,免去了自己再去找数据集的烦恼
其中包括:
鸢尾花数据集:load_iris()
手写数字数据集:load_digitals()
糖尿病数据集:load_diabetes()
乳腺癌数据集:load_breast_cancer()
波士顿房价数据集:load_boston()
体能训练数据集:load_linnerud()

这里以鸢尾花数据集为例导入数据集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值