初学机器学习python笔记

一、用sklearn估计器分类

1.1 构造数据

datasets.make_regression

from sklearn import datasets #引入数据集
#构造各种参数
X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=1)
#绘制构造的数据
import matplotlib.pyplot as plt
plt.figure()
plt.scatter(X,y)
plt.show()

结果输出
属性设置
n_samples:int,可选(默认=100),样本数。
n_features:int,可选(默认=2),特征的数量。
n_informative:int,可选(默认=2),信息特征的数量,即用于构建用于生成输出的线性模型的特征数量。
n_targets:int,可选(默认=1),回归目标的数量,即与样本相关的 y 输出向量的维度。默认情况下,输出是一个标量。
bias:浮点数,可选(默认=0.0),基础线性模型中的偏差项。
noise:浮点数,可选(默认=0.0),应用于输出的高斯噪声的标准偏差。
shuffle:布尔值,可选(默认 = True),Shuffle[洗牌]样本和特征。
coef:布尔值,可选(默认=假),如果为 True,则返回基础线性模型的系数。
random_state:int,RandomState 实例或无(默认),用于创建数据集的随机数生成器的种子。
dtype: string or numpy dtype (default: ‘single’):数据的类型。可能的值:float32、float64、‘single’, ‘float’ or ‘double’。
handle: cuml.Handle:如果为 None,则仅为此函数调用创建一个新的返回:
out:形状为 [n_samples, n_features] 的设备数组,输入样本。
values:形状为 [n_samples, n_targets] 的设备数组,输出值。
coef:形状为 [n_features, n_targets] 的设备数组,可选基础线性模型的系数。仅当 coef 为 True 时才返回。

1.2 分类与回归

机器学习模型接受一定的输入并生成一个输出。根据输出值的类型可将机器学习模型进一步划分为分类(classification)和回归(regression),都属于监督式学习。根本上来说分类是关于预测标签,而回归是关于预测数量。机器学习分类
常用的特征分类方法包括 K 近邻( KNearest Neighbors,KNN) 、朴素贝叶斯( Naive Bayesian Mode,NBM) 、决策树( Decision Trees,DT) 、支持向量机( Support Vector Machine,SVM) 和 BP神 经 网 络 ( Back Propagation Neural Network,BPNN)等。
分类与回归差别

1.3 常用数据集

分类数据集:

  • 鸢尾花(iris)数据集
    sklearn.datasets.load_iris()——加载并返回鸢尾花数据集
    数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。
  • 手写数字数据集
    sklearn.datasets.load_digits()——加载并返回数字数据集
    手写数字数据集包括1797个0-9的手写数字数据,每个数字由8*8大小的矩阵构成,矩阵中值的范围是0-16,代表颜色的深度。

回归数据集:(输出连续值)

  • 波士顿房价数据集
    sklearn.datasets.load_boston()——加载并返回波士顿房价数据集
  • 糖尿病数据集
    sklearn.datasets.load_diabetes()——加载和返回糖尿病数据集

1.4 估计器

估计器的工作流程

  • 估计器有两个重要的方法:
    • fit:用于从训练集中学习模型参数
    • transform:用学习到的参数转换数据
  • sklearn估计器的类别:
    • 1.用于分类的估计器
      • sklearn.neighbors:近邻算法
      • sklear.naive_bayes:贝叶斯
      • sklearn.linear_model.LogisticRegression:逻辑回归
    • 2.用于回归的估计器
      • sklearn.linear_model.LinearRegression:线性回归
      • sklearn.linear_model.Ridge:岭回归
    • 3.用sklearn估计值分类
    • 估计器(Estimator):用于分类、聚类和回归分析
    • 转换器(Transformer):用于数据的预处理和数据的转换
    • 流水线(Pipeline):组合数据挖掘流程,便于再次使用

朴素贝叶斯分类

内容来自清华大学出版社邓立国著《scikit_learn机器学习实战》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值