python中如何导入sklearn_Python中常用包——sklearn主要模块和基本使用方法

本文介绍了Python中的scikit-learn库在数据科学中的重要性,展示了如何加载数据、数据归一化、特征选择,并通过实例详细解释了逻辑回归、朴素贝叶斯、k近邻、决策树和支持向量机等机器学习算法的使用。此外,还讨论了如何优化算法参数,包括GridSearchCV和RandomizedSearchCV的应用。
摘要由CSDN通过智能技术生成

在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。

加载数据(Data Loading)

我们假设输入时一个特征矩阵或者csv文件。

首先,数据应该被载入内存中。

scikit-learn的实现使用了NumPy中的arrays,所以,我们要使用NumPy来载入csv文件。

以下是从UCI机器学习数据仓库中下载的数据。

样例:

1 import numpy as np

2 import urllib

3 # url with dataset

4 url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"

5 # download the file

6 raw_data = urllib.urlopen(url)

7 # load the CSV file as a numpy matrix

8 dataset = np.loadtxt(raw_data, delimiter=",")

9 # separate the data from the target attributes

10 X = dataset[:,0:7]

11 y = dataset[:,8]

我们要使用该数据集作为例子,将特征矩阵作为X,目标变量作为y。

注意事项:

(1)可以用浏览器打开那个url,把数据文件保存在本地,然后直接用 np.loadtxt(‘data.txt’, delemiter=”,”) 就可以加载数据了;

(2)X = dataset[:, 0:7]的意思是:把dataset中的所有行,所有1-7列的数据都保存在X中;

数据归一化(Data Normalization)

大多数机器学习算法中的梯度方法对于数据的缩放和尺度都是很敏感的,在开始跑算法之前,我们应该进行归一化或者标准化的过程,这使得特征数据缩放到0-1范围中。scikit-learn提供了归一化的方法,具体解释参考http://scikit-learn.org/stable/modules/preprocessing.html:

样例:

1 from sklearn import preprocessing

2 #scale the data attributes

3 scaled_X = preprocessing.scale(X)

4

5 # normalize the data attributes

6 normalized_X = preprocessing.normalize(X)

7

8 # standardize the data attributes

9 standardized_X = preprocessing.scale(X)

特征选择(Feature Selection)

在解决一个实际问题的过程中,选择合适的特征或者构建特征的能力特别重要。这成为特征选择或者特征工程。

特征选择时一个很需要创造力的过程,更多的依赖于直觉和专业知识,并且有很多现成的算法来进行特征的选择。

下面的树算法(Tree algorithms)计算特征的信息量:

样例:

1 from sklearn import metrics

2 from sklearn.

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值