初学机器学习python笔记

Milenio_

已于 2024-01-08 10:44:01 修改

阅读量36

点赞数

文章标签： python 机器学习开发语言

于 2022-10-15 20:30:53 首次发布

本文链接：https://blog.csdn.net/Milenio_/article/details/127339373

版权

机器学习笔记

一、用sklearn估计器分类
朴素贝叶斯分类

一、用sklearn估计器分类

1.1 构造数据

datasets.make_regression

from sklearn import datasets #引入数据集
#构造各种参数
X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=1)
#绘制构造的数据
import matplotlib.pyplot as plt
plt.figure()
plt.scatter(X,y)
plt.show()

结果输出
属性设置
n_samples：int，可选(默认=100)，样本数。
n_features：int，可选(默认=2)，特征的数量。
n_informative：int，可选(默认=2)，信息特征的数量，即用于构建用于生成输出的线性模型的特征数量。
n_targets：int，可选(默认=1)，回归目标的数量，即与样本相关的 y 输出向量的维度。默认情况下，输出是一个标量。
bias：浮点数，可选(默认=0.0)，基础线性模型中的偏差项。
noise：浮点数，可选(默认=0.0)，应用于输出的高斯噪声的标准偏差。
shuffle：布尔值，可选(默认 = True)，Shuffle[洗牌]样本和特征。
coef：布尔值，可选(默认=假)，如果为 True，则返回基础线性模型的系数。
random_state：int，RandomState 实例或无(默认)，用于创建数据集的随机数生成器的种子。
dtype: string or numpy dtype (default: ‘single’)：数据的类型。可能的值：float32、float64、‘single’, ‘float’ or ‘double’。
handle: cuml.Handle：如果为 None，则仅为此函数调用创建一个新的返回：
out：形状为 [n_samples, n_features] 的设备数组，输入样本。
values：形状为 [n_samples, n_targets] 的设备数组，输出值。
coef：形状为 [n_features, n_targets] 的设备数组，可选基础线性模型的系数。仅当 coef 为 True 时才返回。

1.2 分类与回归

机器学习模型接受一定的输入并生成一个输出。根据输出值的类型可将机器学习模型进一步划分为分类（classification）和回归（regression），都属于监督式学习。根本上来说分类是关于预测标签，而回归是关于预测数量。机器学习分类
常用的特征分类方法包括 K 近邻( KNearest Neighbors，KNN) 、朴素贝叶斯( Naive Bayesian Mode，NBM) 、决策树( Decision Trees，DT) 、支持向量机( Support Vector Machine，SVM) 和 BP神经网络 ( Back Propagation Neural Network，BPNN)等。
分类与回归差别

1.3 常用数据集

分类数据集：

鸢尾花(iris)数据集
sklearn.datasets.load_iris()——加载并返回鸢尾花数据集
数据集内包含 3 类共 150 条记录，每类各 50 个数据，每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这4个特征预测鸢尾花卉属于（iris-setosa, iris-versicolour, iris-virginica）中的哪一品种。
手写数字数据集
sklearn.datasets.load_digits()——加载并返回数字数据集
手写数字数据集包括1797个0-9的手写数字数据，每个数字由8*8大小的矩阵构成，矩阵中值的范围是0-16，代表颜色的深度。

回归数据集：（输出连续值）

波士顿房价数据集
sklearn.datasets.load_boston()——加载并返回波士顿房价数据集
糖尿病数据集
sklearn.datasets.load_diabetes()——加载和返回糖尿病数据集

1.4 估计器

估计器的工作流程

估计器有两个重要的方法:
- fit：用于从训练集中学习模型参数
- transform：用学习到的参数转换数据
sklearn估计器的类别：
- 1.用于分类的估计器
  - sklearn.neighbors：近邻算法
  - sklear.naive_bayes：贝叶斯
  - sklearn.linear_model.LogisticRegression：逻辑回归
- 2.用于回归的估计器
  - sklearn.linear_model.LinearRegression：线性回归
  - sklearn.linear_model.Ridge：岭回归
- 3.用sklearn估计值分类
- 估计器（Estimator）：用于分类、聚类和回归分析
- 转换器（Transformer）：用于数据的预处理和数据的转换
- 流水线（Pipeline）：组合数据挖掘流程，便于再次使用