使用scikit-learn做基本机器学习

最新推荐文章于 2024-03-25 16:28:16 发布

Quincy1994

最新推荐文章于 2024-03-25 16:28:16 发布

阅读量1.8k

点赞数 1

分类专栏：数据挖掘 python学习文章标签： sklearn python 机器学习

本文链接：https://blog.csdn.net/qq_30843221/article/details/74959742

版权

数据挖掘同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

python学习

5 篇文章 0 订阅

订阅专栏

安装的工具包

sklearn: sudo pip install sklearn
numpy: sudo pip install numpy
scipy: sudo pip install scipy
matplotlib : sudo pip install matplotlib

sklearn的官网教程

http://scikit-learn.org/stable

机器学习基本概念

机器学习有三个基本的要素,分别是:输入空间, 特征空间与输出空间. 输入空间与输出空间分别表示的是输入与输出的所有可能取值的集合. 由输入空间到输出空间的映射过程, 就是机器学习的任务.然而, 输入空间往往存在数据的冗余, 稀疏, 不平衡分布等情况, 若直接将输入空间作为机器学习模型的输入, 很容易造成学习过程出现较大的偏差. 因此, 需要对输入空间做进一步的数据预处理, 从而构建特征空间.

数据预处理

数据预处理中, 一种比较典型的方法为数据中心化(standardization) . 数据中心化的目的是将数据中每一个特征都服从正态分布, 这样即可以保持特征内数据之间的差异在[-1,1] , 也可以减低特征之间的分布差异. 数据中心化的具体思路是将每一项特征内的数据分布看成独立的标准正态分布, 通过求解均值与分差, 将每一项数据映射为[-1,1]的正态数据.
具体的代码如下:

# coding=utf-8

from sklearn import preprocessing
import numpy as np

# 原始输入空间
X = np.array([[1.,-1.,2.],
              [2.,0.,0.],
              [0.,1.,-1.]])

# 数据中心化
scaler = preprocessing.StandardScaler().fit(X)

# 构建特征空间
features = scaler.transform(X)
print features

常见的机器学习模型

KNN分类

#coding=utf-8

from sklearn import neighbors
from sklearn.datasets import load_iris

n_neighbors = 5  # 最近邻的个数

# 读取数据集
iris = load_iris()
features = iris.data[:, :2]  # 特征矩阵
target = iris.target  # 目标属性

# 构建分类器
clf = neighbors.KNeighborsClassifier(n_neighbors=n_neighbors)
clf.fit(features, target)

# 预测分类结果
pred = clf.predict(features)
print pred

SVM分类

# coding=utf-8
from sklearn import svm


# 训练样本的特征空间
X = [[0,1],[0,2],[0,3],[1,0],[2,0],[3,0]]
# 训练样本的目标属性
y = [0,0,0,1,1,1]

# 构建SVM分类器, 将probability设为true,可以计算每个样本到各个类别的概率
clf = svm.SVC(probability=True)
# SVM分类器训练样本
clf.fit(X,y)

# 测试样本
test = [[2.5,2.5],[2.5,0]]
# 用分类器预测测试样本, 计算每个样本到各个类别的概率
result = clf.predict_proba(test)
print result

关于sklearn读取libsvm文件

## 读取数据
from sklearn.datasets import load_svmlight_file
filename = "data/labelAttributes.txt"
data = load_svmlight_file(filename)
X, y = data[0], data[1]
# X为输入空间， y为输出空间

关于训练模型的保存与加载

需要导入joblib

# coding=utf-8
from sklearn.neural_network import MLPClassifier
from sklearn.externals import joblib
import os

# 模型保存的文件夹路径
os.chdir("/home/quincy/model_save")

# 训练模型
X = [[0., 0.], [1., 1.],[2.,2.]]
y = [0,1,2]
clf = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5,3), random_state=1)
clf.fit(X,y)

# 将训练好的模型保存到train_model.m中
joblib.dump(clf, "train_model.m")

# 模型的加载
clf = joblib.load("train_model.m")

test = [[2., 2.],[1., 2.]]
result = clf.predict_proba(test)
print result

Quincy1994

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
使用scikit-learn做基本机器学习

安装的工具包sklearn: sudo pip install sklearn numpy: sudo pip install numpy scipy: sudo pip install scipy matplotlib : sudo pip install matplotlibsklearn的官网教程http://scikit-learn.org/stable编程代码示范#coding=ut
复制链接

扫一扫