自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (16)
  • 收藏
  • 关注

原创 《scikit-learn》朴素贝叶斯

在scikit-learn中,优这么集中朴素贝叶斯naive_bayes.BernoulliNB 伯努利分布下的NBnaive_bayes.GaussianNB 高斯分布下的NBnaive_bayes.MultinomialNB 多项式分布下的NBnaive_bayes.ComplementNB 补充NB一:高斯朴素贝叶斯通过假设P(xi | Y)是服从于高斯分布的。它会自动计算某个Y的条件下,某个特征的的均值和方差,然后代入具体值的话就是得到了具体的条件概率。它适用于连续变量。# 高

2021-02-17 20:09:19 651

原创 《scikit-learn》xgboost

XGBoost算法• XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。• XGBoost的基学习器除了可以是CART(这个时候就是GBDT)也可以是线性分类器,而GBDT只能是CART。• XGBoost的目标函数的近似用了二阶泰勒展开,模型优化效果更好。• XGBoost在代价函数中加入了正则项,用于控制模型的复杂度(正则项的方式不同,如果你仔细点话,GBDT是一

2021-02-17 16:13:45 592 2

原创 《scikit-learn》SVM(三)ROC曲线

当我们越来越追求较高的recall的时候,precision会下降,就是说随着越来越多的少数类被捕获出来,就会伴随着更多的多数类被判断错误,我们想知道随着追求的recall的增加,模型把多数类判断错误的现象的将如何变化;或者说啊,我们每多找出一些少数类,就会把多少多数类样本给判断错误。因此我们可以使用Recall和假正率FPR之间的平衡,来代替Recall和precision之间的平衡,因此这种,衡量模型在尽量捕获少数类的时候,造成对多数类样本错误判断情况的变化曲线,我们称之为ROC(The Rece

2021-02-17 02:46:02 4289

原创 《scikit-learn》SVM(二)数据不均衡

我们继续学习一些其他的细节一:样本均衡问题我们来看看在SVM中样本不均衡的情况比如两个样本集合的数目严重不对等,我们希望模型更能识别出少数样本,比如银行贷款,预测某人会不会抵赖,我们更希望能预测出抵赖的人,防止损失吧,大多数人是不会抵赖的,递来的人就是少数。在这样的分布下,即便我们什么都不做,全部预测是不会抵赖,那么模型的准确度也是很高的,这样是没有任何意义,我们需要重点关注的是那部分少数的样本。我们用class_weight来改变样本的分布权重比例。同时我们也可以用sample_weight来

2021-02-16 16:37:13 2071

原创 《scikit-learn》SVM(一)

至于SVM的数学理解,强烈推荐如下三篇知乎博文,我是自学视频学习的,但是如下三篇博文讲的是真的好啊,完全跟我在视频里学习到的是一样的,我很激动啊。https://zhuanlan.zhihu.com/p/28660098https://zhuanlan.zhihu.com/p/28954032https://zhuanlan.zhihu.com/p/77750026这三篇写的真的是用心极力推荐啊。我就不自己重复工作了,为了搞懂这点,或者说初步搞懂这点,我花了两天的时间,因为自己的数学能力有点薄弱。

2021-02-15 18:54:12 322 1

原创 《scikit-learn》KMeans

至于聚类的地含义,以及我们熟悉的KMeans算法,基于层次的,基于密度的,我们之前都是学习过的,就不多说了,这里说一些在scikit-learn中是如何使用的,且说一些其他方面的。一:代码直接开整第一步,我们先自己造一些二维数据,并且用图画出来。from sklearn.datasets import make_blobsimport matplotlib.pyplot as plt# 自己创造一个数据集,# 自己创造一个,一千个样本的数据,每个数据是2个特征,一共有4个中心x, y = m

2021-02-13 18:14:37 1339 1

原创 《scikit-learn》PCA(一)

特征选择是从已经存在的特征中选择相关性,信息量最多的特征。特征创造,比如降维,降维之后,新的特征矩阵就不是任何一个特征了。二十通过线性变换后创造的新的特征,新的特征不再具有可读性。至于降维的一些算法和数学,在最早的一些文章中已经粗略学习过了。下面我们直接学习如何在scikit-learn中使用它,scikit-learn中有很多种类。1:主要成分分析:decomposition.PCA 主要成分分析decomposition.IncrementalPCA 增量主要成分分析decom

2021-02-09 18:29:12 490

原创 《scikit-learn》数据预处理与特征工程(三)特征选择

特征工程包括三个部分:1、特征提取:从文字,图像,声音等其他非结构化数据中提取信息作为特征,建立最原始特征信息采集。2、特征创造:把现有的一些特征进行组合胡总和相互计算,得到新的特征。3:特征选择:从所有特征中挑选出最具有价值的,对模型最具有帮助的特征。本文将全部学习特征选择。特征选择第一步,充分理解业务和需求,理解数据特征。拿到数据后,一些低相关性的特征在我们人眼识别下就可以轻易剔除掉的,这需要我们对业务的理解后次啊可以得出。比如上次在泰坦尼克的实验中,名字,乘客编号这些信息是跟最后是否存活是

2021-02-07 18:52:54 559

原创 《scikit-learn》数据预处理与特征工程(二)数值转换

处理缺失值呢,就不讲了,参考之前的博文,《《scikit-learn》随机森林回归填补缺失值》 即可。这里来学习怎么对一些数值进行处理一:对分类型数据处理,对数据进行编码和哑变量的处理Scikit-learn中处理是不允许有文字的,因此需要做一些转换,对标签或者特征的含有文字的信息进行转换。1:把文字/字符信息转换成对应的类别数值。方法如下:一个是对标签进行数值转换。from sklearn.preprocessing import LabelEncoder # 标签专用,将标签转换为数值的

2021-02-06 16:49:41 762

原创 《ML》方差和偏差

偏差:就是预测值和观测值之间的差异,每个评估器都有自己的偏差,集成算法中,是所有偏差的均值,其衡量模型的准确度,模型精度越高,越准确,则偏差越低。方差:反映的是模型的每一次输出结果和模型预测值的平均水平的差异,看看每一次预测稳定不稳定,其用来衡量模型的稳定性,模型越稳定,方差越低。因此一个好的模型是哟又准确又稳定。需要偏差和方差都很低才行。一般会把模型复杂度和最后的总误差值做个曲线,如下:Total_error = Bias_error + Variance_error模型太简单的时候,一般方差

2021-02-05 19:29:43 259

原创 《scikit-learn》数据预处理与特征工程(一)数据归一化

数据挖掘的五大流程1:获取数据从调查问卷,网络,爬虫,算法转变等一系列方式获得数据2:数据预处理这是从数据中检测、纠正、或者删除损坏、不准确、不适用的数据的过程。可能面对的问题有:数据类型不对,比如不是所有机器学习算法可以处理文字;数据的质量不行,比如有噪声,有异常,有错误,有缺失,量纲不一致,数据有重复,数据有的他打或者太小。目的就是:让数据变得完整、准确和可靠,从而使得数据更能适应、匹配模型。3:特征工程特征工程是一种为了能让原始数据转换为更能代表模型潜在问题的特征的过程,可以通过挑选最

2021-02-04 17:41:15 507

原创 《scikit-learn》随机森林之分类预测乳腺癌模型

今天我们使用随机森林分类器来对乳腺癌数据进行预测第一步:加载数据import matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom sklearn.datasets import load_breast_cancer # 乳腺癌数据from sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridS

2021-02-04 11:45:49 3305 1

原创 《scikit-learn》随机森林回归填补缺失值

在清洗数据的阶段,我们面对缺失值有三种方式1:直接将少量具有缺失值的样本删除。2:将大量缺失值的特征删除。3:中等含有缺失值的特征进行填补。在scikit-learn中,有一个专门填充的类,专门将均值,中值,或其他数值填充,比如还有0值填充,随机森林回归填充,来分别验证拟合状况,来找出此数据集最佳的缺失值填补方式。假如我们还是使用回归数据来做测试,使用boston房价数据。第一步:加载数据# ====1:加载数据boston = load_boston()这里不展开介绍了,简单说是506个

2021-02-03 01:56:42 3402 1

原创 《scikit-learn》随机森林之回归

今天我们学习下随机森林做回归的用法话不多说直接上测试代码,看的更加清晰,总体上和回归树是一样的使用流程from sklearn.datasets import load_bostonfrom sklearn.model_selection import cross_val_scorefrom sklearn.ensemble import RandomForestRegressorimport sklearn# 加载连续型数据,boston房价boston = load_boston()

2021-02-02 17:30:15 1434

原创 《scikit-learn》随机森林之深入学习

本文探究一些关于随机森林细节的东西一:随机森林效果比单个决策树要好的原因是?百家言胜过一言堂在bagging中,多个分类器的随机森林为什么要比单个基本分类器要好呢?我们从数学的角度来简单分析下:假设我们有单独的一棵树,其正确率是80%(错误率是ε=0.2),我们现在要建立一片森林,假如要建立25棵树,一般在bagging下,表决的结果是根据多棵树的平均(回归问题)或者多数(分类问题)来决定的。分类问题,根据多数原则来。那么在随机森林下一个样本倍分错的概率是:其值约等于0.000369因此,

2021-02-02 00:18:43 221

原创 《scikit-learn》随机森林之分类树

至于集成学习方法,我们之前学习了很多的基本理论知识,现在我们进入实战环节。集成学习包含bagging的随机森林,包括boosting的Adaboost,GBDT,Xgboost等。bagging方式下,单个学习器之间完全没有联系,都是独立的。Boosting方式下,则是在前一个学习器的基础上进一步优化。今天我们先来看看最常见的随机森林中的分类树的用法吧代码如下,我们把单个决策树和随机森林放在一起运行比较。from sklearn.tree import DecisionTreeClassifie

2021-02-01 18:01:25 436

每天进步一点点《ML - 异常点检测》.docx

这个是对 机器学习中的 异常点检测 做的总结,有大量的计算过程和图示。纯属是个人所学所记录,也想分享给初学者,给一定的指导。

2020-09-26

每天进步一点点《ML - K-Means》.docx

这个是对 机器学习中的 K-Means 做的总结,有大量的计算过程和图示。纯属是个人所学所记录,也想分享给初学者,给一定的指导。

2020-09-25

每天进步一点点《ML - 支持向量机》.docx

这个是对 机器学习中的 SVM 做的总结,有大量的计算过程和图示。纯属是个人所学所记录,也想分享给初学者,给一定的指导。

2020-09-24

每天进步一点点《ML - 人工神经网络》.docx

这个是对 机器学习中的 人工神经网络 做的总结,有大量的计算过程和图示。纯属是个人所学所记录,也想分享给初学者,给一定的指导。

2020-09-22

每天进步一点点《ML - 线性回归》.docx

这个是对 机器学习中的 线性回归做的总结,有大量的计算过程和图示。纯属是个人所学所记录,也想分享给初学者,给一定的指导。

2020-09-17

学习OpenCV(中文版)).pdf

特别适合学习OpenCV的初始学习,讲的特别好

2017-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除