【scikit-learn】07:数据加载,数据归一,特征选择,逻辑回归,贝叶斯,k近邻,决策树,SVM

本文介绍了使用scikit-learn进行数据加载、归一化、特征选择,以及应用逻辑回归、朴素贝叶斯、k近邻、决策树和支持向量机等算法的过程,并展示了算法的精度、召回率和F1分数。
摘要由CSDN通过智能技术生成

###加载数据(Data Loading)

      我们假设输入时一个特征矩阵或者csv文件。
      首先,数据应该被载入内存中。scikit-learn的实现使用了NumPy中的arrays,所以,我们要使用NumPy来载入csv文件。
      以下是从UCI机器学习数据仓库中下载的数据。

import numpy as np
import urllib
# url with dataset
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
# download the file
raw_data = urllib.urlopen(url)
# load the CSV file as a numpy matrix
dataset = np.loadtxt(raw_data, delimiter=",")
# separate the data from the target attributes
X = dataset[:,0:7]
y = dataset[:,8]

      我们要使用该数据集作为例子,将特征矩阵作为X,目标变量作为y。
###数据归一化(Data Normalization)
      大多数机器学习算法中的梯度方法对于数据的缩放和尺度都是很敏感的,在开始跑算法之前,我们应该进行归一化或者标准化的过程,这使得特征数据缩放到0-1范围中。scikit-learn提供了归一化的方法:

from sklearn import preprocessing
# normalize the data attributes
normalized_X = preprocessing.normalize(X)
# standardize the data attributes
standardized_X = preprocessing.scale(X)

###特征选择(Feature Selection)
      在

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值