![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 83
被月亮晒黑_
这个作者很懒,什么都没留下…
展开
-
【机器学习】3.最邻近规则分类KNN算法
1.KNN是一种基本分类与回归方法、K近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类,K近邻法假设给定一个训练数据集,其中的实例类别已定。分类时根据其K个最近邻的训练实例的类别。通过多数表决等方式进行预测。2.K近邻法三要素:K值的选择,距离度量,分类决策规则。3.算法详述 3.1步骤: 为了判断未知实例的类别,以所有已知类别的实例作为参考。 ...原创 2018-04-07 23:07:47 · 304 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析2】2.特征工程
2.0 任务说明特征选择:分别用IV值和随机森林进行特征选择。再用【算法实践】中的7个模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM),进行模型评估。 2.1 特征选择特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Sele...原创 2019-01-29 21:52:23 · 792 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析2】1.数据预处理
0.数据介绍数据的下载地址 https://pan.baidu.com/s/1wO9qJRjnrm8uhaSP67K0lw注:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。注意这个数据跟我上几篇博客的数据不一样。 1.数据预处理 1.1数据类型的分析(1)划分数据和标签...原创 2019-01-27 06:26:00 · 1047 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析】4.模型调优
4.0 任务说明使用网格搜索法对7个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估。 4.1 网格搜索与K折验证网格搜索算法是一种通过遍历给定的参数组合来优化给定模型性能的方法。我们可以直接调用gridsearchcv()函数实现对给定数据集和模型的基于k折验证的网格搜索方法。函数如下:GridSearchCV(estimator, param_grid, s...原创 2019-01-09 21:50:56 · 696 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析】3.模型评估
3.0 任务说明前面讲了七个模型的建立以及评估,这次把模型评估单独拿出来详细讲一下,记录7个模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。 3.1 准备工作在模型评估之前,我们先把两个东西算出来,一个是预测后的得分矩阵,一个是预测后...原创 2019-01-07 21:20:40 · 1019 阅读 · 0 评论 -
【opencv】用opencv2.4.9 EigenFace 实现人脸识别
0.写在前面从OpenCV2.4开始,加入了新的类FaceRecognizer,我们可以使用它便捷地进行人脸识别实验。因为opencv3里人脸识别的实验已经转移到contrib里的face模块中,因为opencv3需要额外编译contrib,我电脑还没有编译这个模块。所以本实验还是继续用opencv2.4,可以直接使用facerecognizer。本实验采用的编程环境为:opencv3.0...原创 2019-01-07 02:52:29 · 2805 阅读 · 3 评论 -
【机器学习-贷款用户逾期情况分析】2.集成模型构建
2.0 任务说明接着上一篇博客的金融数据集,这次构建随机森林、GBDT、XGBoost和LightGBM这4个模型,并对每一个模型进行评分,例如准确度和auc值。在集成学习中,主要分为bagging算法和boosting算法,上面的算法中随机森林属于bagging算法,另外三个是boosting方法。2.1 随机森林随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。(...原创 2019-01-05 21:08:54 · 597 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析】1.模型构建
0.数据介绍数据的下载地址 https://pan.baidu.com/s/1dtHJiV6zMbf_fWPi-dZ95g注:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。 1.模型构建 1.0任务说明将金融数据集三七分,随机种子2018,调用sklearn包,简...原创 2019-01-03 20:29:57 · 2445 阅读 · 1 评论 -
【机器学习】7.多元线性回归
1.与简单线性回归区别: 多个自变量(x)2.多元回归模型: y=β0+β1x1+β2x2+ ... +βpxp+ε 其中:β0,β1,β2... βp是参数 ε是误差值3.多元回归方程: ...原创 2018-04-13 22:39:40 · 582 阅读 · 0 评论 -
【机器学习】6.简单线性回归
0.统计量的作用:描述数据特征 0.1集中趋势衡量 0.1.1均值(平均数,平均值)(mean) 0.1.2中位数:将数据中的各个数值按照大小顺序排列,居于中间位置的变量 当n为奇数时,直接取...原创 2018-04-13 19:00:17 · 356 阅读 · 0 评论 -
【机器学习】11.神经网络浅讲:从神经元到深度学习
本文转发自:http://www.cnblogs.com/subconscious/p/5058741.html 由博主”计算机的潜意识”于2015年底在博客园发布的一篇博文。神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术。 本文以一种简单的,循序的方式讲解神经网络。适合...转载 2018-04-18 16:09:28 · 352 阅读 · 0 评论 -
【机器学习】5.支持向量机(下)
1.SVM算法特性: 1.1 训练好的模型的算法复杂度是由支持向量的个数决定的,而不是由数据的维度决定的。所以SVM不太容易产生overfitting 1.2 SVM训练出来的模型完全依赖于支持向量,即使训练集里面所有非支持向量的点都被去除,重复训练过程,结果仍然会得到完全一...原创 2018-04-12 16:44:13 · 248 阅读 · 0 评论 -
【机器学习】2.决策树算法
0.机器学习中分类和预测算法的评估: 准确率 速度 强壮行 可规模性 可解释性1.决策树概念(decision tree) 决策树是一个类似于流程图的结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。决策树是机器学习中分类方法中的一个重要算法。结点有两种类型:内部结点和叶结点,内部结点表示...原创 2018-04-05 23:36:12 · 319 阅读 · 0 评论 -
【机器学习】1.机器学习介绍
1.机器学习 (1)概念:多领域交叉学科,涉及概率论,统计学,逼近论,凸分析,算法复杂度理论等多门学科。专门研究计算机怎样模拟和实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 (2)学科定位:人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能各个领域,它主要使用归纳、综合,而不是演绎。 (3)定义:探究和开发一系列算法来如何...原创 2018-04-04 23:36:09 · 251 阅读 · 0 评论 -
【机器学习】10.K-means算法
1.归类: 聚类属于非监督学习 无类别标记2.举例 3.K-means算法 3.1 Clustering中的经典算法,数据挖掘十大经典算法之一 3.2 算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对...原创 2018-04-17 14:42:05 · 240 阅读 · 0 评论 -
【机器学习】4.支持向量机(上)
1.背景 1.1最早是由Vladimor N.Vapnik和Alexey Ya.Chervonenkis在1963年提出。 1.2目前的版本(soft margin)是由Corinna Cortes和Vapnik在1993年提出,并在1995年发表。 1.3深度学习(2012)出来之前,SVM被认为是机器学习中近十几年来最成功的,表现最好的算法。2.机器学习的一般框架: 训...原创 2018-04-11 23:04:08 · 226 阅读 · 0 评论 -
【机器学习】9.回归中的线性度和决定系数
1.皮尔逊相关系数 1.1衡量两个值线性相关强度的量 1.2取值范围:[-1,+1] 正相关:>0,负相关:<0,不相关:=0。 1.3 ...原创 2018-04-16 21:47:08 · 2018 阅读 · 1 评论 -
【机器学习】8.非线性回归:logistic regression
1.概率: 1.1定义 概率:对一件事情发生的可能性衡量 1.2范围 0<=P<=1 1.3计算方法 根据个人置信 根据历史数据 根据模拟数据 1.4条件概率: 2.逻辑回归 ...原创 2018-04-16 15:14:40 · 302 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析2】3.stacking模型融合
3.0 任务说明用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分果。 3.1 stacking模型融合Stacking(有时候也称之为stacked generalization)是指训练一个模型用于组合(combine)其他各个模型。即首先我们先训练多个不同的模型,然后再以之前训练的各个模型的输出为输入来训练一个模型,以得到一个最终的输出...原创 2019-02-27 11:13:41 · 660 阅读 · 0 评论