![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
皓皓家的
这个作者很懒,什么都没留下…
展开
-
机器学习——模型评估
前言当创建好一个机器学习模型之后,我们需要评估这个模型的性能好坏,以确定模型是否可用,在sklearn中的metrics模块提供了各种模型评估方法。对分类模型和回归模型,我们需要使用不同的方法对模型进行评估。1、分类模型评估对于分类模型,主要有以下几种评估指标:准确率(accuracy)正确分类的样本数占所有样本数的比例accuracy=ncorrectntotalaccura...原创 2020-01-02 17:39:39 · 368 阅读 · 0 评论 -
机器学习——主成分分析(PCA)
1、PCA的思想主成分分析(Principal Component Analysis)是一种最常用的数据降维手段。将大量变量转化成一组很少的不相关变量,这些不关变量称为主成分,并且尽可能地保留原始数据集的信息。假如我们的数据集是nnn维的,共有mmm个数据KaTeX parse error: Expected '}', got 'EOF' at end of input: …,\cdots,x...原创 2019-12-23 16:06:38 · 515 阅读 · 0 评论 -
机器学习——聚类算法(clustering)
1、什么是聚类?通俗地讲,聚类就是将不带任何标签的数据分成不同的组,是一种典型的无监督机器学习算法,聚类的难点:难以评估和调参。用两张图来理解分类和聚类的区别:分类:聚类:2、K-means聚类k-means算法是经典的聚类算法之一,在不带标签的多维数据集中寻找确定数量的簇。以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。几个重要的基本概念:K值:...原创 2019-12-20 18:24:14 · 1662 阅读 · 0 评论 -
机器学习——支持向量机(Support Vector Machine)
1、什么是支持向量机?支持向量机(Support Vector Machine)是一种非常强大的、灵活的基于监督的机器学习算法。通俗地讲,标准的支持向量机是一种二元分类的算法。其基本模型定义为特征空间上的间隔最大的线性分类器。在学习支持向量机之前有几个重要的概念:线性可分(Linearly Separable):在数据集中,如果可以找出一个超平面,将两组数据分开,那么这个数据集叫做线性可...原创 2019-12-20 15:23:23 · 2108 阅读 · 0 评论 -
机器学习——贝叶斯算法(Bayes)
1、从一个例子来了解贝叶斯?假设一个学校里面人数总数为U,其中60%的学生为男生,40%的学生为女生,男生全部穿长裤,女生有一半穿长裤一半穿短裤正向概率:随机选择一个学生,穿长裤的概率和穿裙子的概率分别是多大逆向概率:迎面走来一个穿长裤的学生,推断其是女生的概率是多大穿长裤的人数:U∗p(boy)∗p(pants∣boy)+U∗p(girl)∗p(pants∣girl)U*p(boy)*p...原创 2019-12-19 15:25:22 · 1871 阅读 · 0 评论 -
机器学习——数据预处理(Preprocessing)
1、缺失值处理删除包含缺失值的一整列当该列种的大部分数据都缺失时可采用该方式,如果只有个别数据缺失,直接删除整列会导致大量信息丢失填充缺失值往缺失值中填入相关数据,例如:列均值、中位数等填充值往往比直接删除整列数据有更好的效果扩展填充直接填充缺失值往往和实际的值之间有所差别,加入一列记录原始数据是否缺失可能会对预测结果有更好的效果2、分类变量的预处理在使用分类变量(特征...原创 2019-12-18 17:35:35 · 2616 阅读 · 0 评论 -
机器学习——随机森林(Random Forest)
1、随机森林(random forest)简介随机森林是一种集成算法(Ensemble Learning),它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。其可以取得不错成绩,主要归功于“随机”和“森林”,一个使它具有抗过拟合能力,一个使它更加精准。集成算法的目的:让机器学习的效果更好,单个不行,群殴走起集成方法:B...原创 2019-12-18 17:02:43 · 771 阅读 · 0 评论 -
机器学习——决策树(Decision Tree)
1、什么是决策树?原创 2019-12-18 15:41:30 · 281 阅读 · 0 评论 -
机器学习——正则化(Regularization)
1、欠拟合与过拟合欠拟合模型不能很好的描述数据,不具备足够的灵活性来适应数据的左右特征模型在验证集的表现与在训练集的表现类似,都不理想过拟合模型具有足够的灵活性近乎完美地适应了数据的所有特征,但过多地学习了数据的噪音,在适应数据所有特征的同时也适应了随机误差模型在验证集的表现远远不如在训练集的表现图片来源于:https://www.cnblogs.com/jianxinzhou...原创 2019-12-17 17:32:13 · 3381 阅读 · 0 评论 -
机器学习——逻辑回归(Logistic Regression)
决策树原创 2019-12-17 14:59:10 · 184 阅读 · 0 评论 -
机器学习——线性回归(Linear Regression)
从一个例子了解线性回归数据:工资和年龄目标:预测银行会贷款多少钱工资年龄贷款额度40002520000800030700005000283500075003350000120004085000自变量(特征):工资(X1)、年龄(X2)因变量:贷款额度(y)假设θ1\theta_1θ1是年龄参数,θ2\theta_2...原创 2019-12-16 17:37:50 · 131 阅读 · 0 评论 -
机器学习理解总结
数组的切片和索引返回的都是原始数组的视图,在视图上的操作都会使原数组发生改变数组的索引一维数组的索引类似python列表二维数组,可在单个或者多个轴上完成切片...原创 2019-12-17 16:00:59 · 182 阅读 · 0 评论 -
机器学习——模型参数调优
一个模型是否适用或者效果如何很大程度上取决于超参数的设置,通过对超参数进行调优可以优化模型,提高模型性能。超参数调优主要有以下几种方法:1、网格搜索(grid search)Grid search 是一种暴力的调参方法,通过遍历所有可能的参数值以获取所有所有参数组合中最优的参数组合。如果采用较大的搜索范围以及较小的步长,网格搜索有很大概率找到全局最优值。然而,这种搜索方案十分消耗计算资源和...原创 2020-01-10 11:24:11 · 1471 阅读 · 0 评论