机器学习
文章平均质量分 73
复习机器学习
Q渡劫
不会写还不滚去看官方文档
展开
-
决策树基本理论知识
(1)、从根结点开始一步步走到叶子结点(决策)(2)、所有的数据最终都会落到叶子结点,既可以做分类问题也可以做回归问题(分类中使用熵值构建决策树,回归中选择使用方差构建决策树)原创 2023-05-31 11:14:44 · 866 阅读 · 0 评论 -
利用sklearn使用基尼方法构建决策树
表示将值 'UK' 转换为 0,将 'USA' 转换为 1,将 'N' 转换为 2。特征列是我们尝试从中预测的列,目标列是具有我们尝试预测的值的列。决策树是一种流程图,可以帮助我们根据以前的经验进行决策。方法,该方法接受字典,其中包含有关如何转换值的信息。比如,一个人将尝试决定他/她是否应该参加喜剧节目。创建一个决策树,将其另存为图像,然后显示该图像。如需制作决策树,所有数据都必须是数字。然后,我们必须将特征列与目标列分开。X 是特征列,y 是目标列。下面是要用到的数据集。打印的是上面的数据集。原创 2023-05-23 22:33:37 · 449 阅读 · 0 评论 -
训练/测试、过拟合问题
此结果可以支持我们对数据集拟合多项式回归的建议,即使如果我们尝试预测数据集之外的值会给我们带来一些奇怪的结果。R2,也称为 R平方(R-squared),它测量 x 轴和 y 轴之间的关系,取值范围从 0 到 1,其中 0 表示没有关系,而 1 表示完全相关。在机器学习中,我们创建模型来预测某些事件的结果,比如之前使用重量和发动机排量,预测了汽车的二氧化碳排放量。下面是模拟的数据:我们的数据集展示了商店中的 100 位顾客及其购物习惯。因此,从上面的情况来看,在训练数据方面,我们已经建立了一个不错的模型。原创 2023-05-23 21:38:41 · 524 阅读 · 0 评论 -
特征缩放(Scale Features)、特征缩放预测CO2 值、df列索引扩展
在这个例子中,我们首先将一维数组 `[1, 2, 3, 4, 5]` 使用 `reshape(-1, 1)` 转换为一个只有一列的二维数组,然后使用 `pd.DataFrame()` 函数将其转换为一个 DataFrame `df`,其中列名为 `Value`例如,如果数据是一维数组,可以使用 `numpy` 库中的 `array` 函数将其转换为二维数组,然后再使用 `pd.DataFrame()` 函数将其转换为 DataFrame。其中 z 是新值,x 是原始值,u 是平均值,s 是标准差。原创 2023-05-23 20:39:46 · 606 阅读 · 0 评论 -
多元回归预测
在这个模块中,包含了一些常用的线性回归模型,如简单线性回归、多元线性回归、岭回归、Lasso 回归等。比如在线性回归中我们可以根据发动机排量的大小预测汽车的二氧化碳排放量,但是通过多元回归,我们可以引入更多变量,例如汽车的重量,以使预测更加准确。多元回归就像线性回归(一个变量预测一个值)一样,但是具有多个独立值,这意味着我们试图基于两个或多个变量来预测一个值。经过预测,配备 1.3 升发动机,重量为 2300 千克的汽车,每行驶 1 公里,就会释放约 107 克二氧化碳。通常,将独立值列表命名为大写。原创 2023-05-23 17:52:16 · 1446 阅读 · 0 评论 -
多项式回归预测
如果在实际中数据点显然不适合线性回归(穿过数据点之间的直线),那么多项式回归可能是理想的选择像线性回归一样,多项式回归使用变量 x 和 y 之间的关系来找到绘制数据点线的最佳方法Python 有一些方法可以找到数据点之间的关系并画出多项式回归线。下面将展示如何使用这些方法而不是通过数学公式在下面的例子中,注册了 18 辆经过特定收费站的汽车我们已经记录了汽车的速度和通过时间(小时)x 轴表示一天中的小时,y 轴表示速度首先绘制散点图结果如下导入所需模块和创建表示 x 和 y 轴值的数组。原创 2023-05-23 17:08:48 · 1385 阅读 · 0 评论 -
线性回归预测
如果 `slope` 的值为 0,则表示 `x` 和 `y` 之间没有线性关系。执行一个方法,使用了 `scipy` 库中的 `stats` 模块中的 `linregress()` 函数对 `x` 和 `y` 数组进行了线性回归分析,并将分析结果保存在 5 个变量中,分别是 `slope`、`intercept`、`r`、`p` 和 `std_err`。如果 `p` 的值小于预设的显著性水平(通常为 0.05),则表明回归系数具有显著性,即 `x` 对 `y` 的影响不是由于随机因素引起的。原创 2023-05-23 16:11:33 · 2469 阅读 · 0 评论 -
散点图(Scatter Plot)
散点图是数据集中的每个值都由点表示的图Matplotlib 模块有一种绘制散点图的方法,它需要两个长度相同的数组,一个数组用于 x 轴的值,另一个数组用于 y 轴的值:x 数组代表每辆汽车的年龄y 数组表示每个汽车的速度需要注意的是,x数组中的每一个位置的值与y数组中的每一个位置值一一对应,也即5对应 99,其余以此类推下面是上面的代码运行结果,可以看到使用年限越长的车,速度越慢。原创 2023-05-23 14:59:01 · 1400 阅读 · 0 评论 -
百分位数、数据分布、直方图、正态数据分布
统计学中使用百分位数(Percentiles)提供一个数字,该数字描述了给定百分比值小于的值。例如:假设我们有一个数组,包含一时刻一条街上人的年龄什么是 90 百分位数?答案是 61,这意味着 90% 的人是 61 岁或以下。NumPy 模块有一种用于找到指定百分位数的方法使用 NumPy方法查找百分位数。原创 2023-05-23 11:54:07 · 1801 阅读 · 0 评论 -
标准差、方差
标准差(Standard Deviation,又常称均方差)是一个数字,描述值的离散程度标准差是一种衡量数据离散程度的统计量,它衡量的是数据集各个数据点相对于平均值的离散程度。通常情况下,标准差越小,说明数据点越聚集在平均值附近,数据越稳定;标准差越大,说明数据点越分散,数据越不稳定低标准偏差表示大多数数字接近均值(平均值)高标准偏差表示这些值分布在更宽的范围内例如:arr = [86,87,88,86,87,85,86]标准差是:0.9意味着大多数值在平均值的 0.9 范围内,即 86.4。原创 2023-05-23 11:02:15 · 3513 阅读 · 0 评论 -
平均中位数模式
在机器学习(和数学)中,均值、中值、众数、通常是我们感兴趣的值。原创 2023-05-22 21:39:44 · 52 阅读 · 0 评论 -
深度学习简介、数据集、数据类型
机器学习是实现人工智能的一个途径,深度学习是实现机器学习的一种技术。深度学习是机器学习的一个子集,用于建立、模拟人脑进行数据处理和分析学习的神经网络,因此也可以被称作是深度神经网络。深度学习与传统机器学习最重要的区别在于数据量的大小和硬件依赖性。当数据量很大时,深度学习算法可以表现出更好的性能,而传统机器学习算法的性能表现则趋于平缓。此外,深度学习不需要手动设计特征,其自动学习的功能对于当前的任务来说最佳,而传统机器学习则需要手动选择和设计特征。原创 2023-05-19 12:52:28 · 990 阅读 · 0 评论