![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python机器学习
文章平均质量分 88
oax_knud
像活在聚光灯之下一样生活
展开
-
tslearn学习:快速入门
tslearn快速入门学习。原创 2022-12-10 15:54:14 · 1861 阅读 · 1 评论 -
sklearn机器学习:决策树案例
决策树是一种用来 classification (分类)和 regression(回归) 的无参监督学习方法。其目的是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。原创 2022-11-28 16:32:57 · 1426 阅读 · 0 评论 -
python机器学习:数据预处理
文章目录一、概述1.1数据预处理和特征工程1.2sklearn中数据预处理和特征工程二、数据预处理2.1数据无量纲化2.2缺失值一、概述1.1数据预处理和特征工程1、数据挖掘五大流程:获取数据数据预处理(1)定义:数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程(2)可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小原创 2021-07-19 19:08:22 · 3483 阅读 · 0 评论 -
python机器学习:调参思想
文章目录一、模型调参思路二、泛化误差三、随机森林在乳腺癌上的调参一、模型调参思路第一步是要找准目标,这个目标是提升某个模型评估指标。第二步考虑模型在未知数据上的准确率受什么因素影响。二、泛化误差1、当模型在未知数据(测试集或者袋外数据)上表现糟糕时,我们说模型的泛化程度不够,泛化误差大。2、模型复杂度与泛化误差关系当模型太复杂,模型就会过拟合,泛化能力就不够,所以泛化误差大。当模型太简单,模型就会欠拟合,拟合能力就不够,所以误差也会大。3、结论模型太复杂或者太简单,都会让泛化误差高,我原创 2021-07-19 11:54:43 · 1238 阅读 · 0 评论 -
python机器学习:随机森林详解
文章目录一、概述1.1集成算法概述1.2 sklearn中的集成算法二、RandomForestClassifier2.1格式2.2参数2.3 重要属性和接口2.4 建立一片森林三、RandomForestRegressor3.1 格式3.2参数3.3属性与接口3.4回归森林举例3.5 随机森林回归填补缺失值一、概述1.1集成算法概述1、定义:集成学习(ensemble learning)本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。2、举例:在现在的各种算法原创 2021-07-18 21:12:06 · 5594 阅读 · 1 评论 -
kaggle实战:Titanic
文章目录一、问题重述1.1 问题描述1.2 数据集1.3 提交格式二、问题求解:决策树一、问题重述1.1 问题描述泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。1912 年 4 月 15 日,在她的初次航行期间,被广泛认为“不沉”的泰坦尼克号在与冰山相撞后沉没。不幸的是,船上的每个人都没有足够的救生艇,导致 2224 名乘客和船员中有 1502 人死亡。虽然幸存下来有一些运气因素,但似乎有些人比其他人更有可能幸存下来。在这个挑战中,我们要求您构建一个预测模型来回答这个问题:“什么样的人更有可能生存?”原创 2021-07-17 21:35:26 · 445 阅读 · 0 评论 -
python机器学习:决策树详解
文章目录一、决策树工作原理1.1 定义1.2 决策树结构1.3 核心问题二、sklearn库中的决策树2.1 模块sklearn.tree2.2 sklearn建模基本流程三、分类树3.1构造函数一、决策树工作原理1.1 定义决策时(Decislon Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则。并用树状图的结构来呈现这些规则,**以解决分类和回归问题。**决策树算法的本质是一种图结构, 我们只需要问一系列问题就可以对数据进行分类。举例:动物类别分类已知原创 2021-07-17 15:47:14 · 30966 阅读 · 7 评论 -
python机器学习:概述
文章目录一、数据类型二、可用数据集三、监督学习和无监督学习四、算法分类一、数据类型不同类型的数据集采用的算法是不一样的。总体来说,生活场景中只有两种类型的数据,一种是离散型,一种是连续型:离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。比如分类就是离散型数据。连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的。如,长度、时间、质量等.这类数通常是非整数,含有小数部分。二、可用数据集1、ka原创 2021-07-16 19:32:01 · 106 阅读 · 0 评论 -
python数据分析:numpy库详解
文章目录一、数组的创建方式1.1、np.ndarray对象1.2 ndarray常用数据类型一、数组的创建方式Numpy种的数组与Python种的列表区别:一个列表可以存储多种数据类型。例如:a=[1,‘a’],而数组只能存储相同的数据类型。数组可以使多维的,当多维数组中所有数据使数值类型时,相当于线代中的矩阵,是可以进行运算的。1.1、np.ndarray对象numpy中数组的数据类型叫做ndarray,以下是两种创建方式:1、np.array():使用列表的形式创建数组impo原创 2021-07-16 12:59:56 · 1032 阅读 · 0 评论