机器学习
__盛夏光年__
这个作者很懒,什么都没留下…
展开
-
机器学习——KNN实现
一、KNN(K近邻)概述 KNN一种基于距离的计算的分类和回归的方法。其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序(升序);选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;优点:理论成熟,思想简单,既可以用来做分类也可以用来做回归; 可用于非线性分类; 训练时间复杂度为O(n原创 2017-08-17 14:30:19 · 699 阅读 · 0 评论 -
集成学习(ensemble learning)(二)
接上一篇:集成学习(ensemble learning)。本篇对集成学习中的 Bagging 和 随机森林算法 进行总结。一、Bagging原理Bagging 的弱学习器之间没有依赖关系,可以并行计算。1、随机采样(BootStrap)自助法,即有放回的采样,也就是说,之前采集到的样本在放回后有可能继续被采集到。一般来讲,随机采样的样本数量和训练集样本数量一致为m,但是两者内容不同。若...原创 2019-04-13 15:19:24 · 820 阅读 · 0 评论 -
集成学习(ensemble learning)(四)
该篇为集成学习的第四篇,主要关注GDBT,传送下之前的文章:集成学习(ensemble learning)(一)集成学习(ensemble learning)(二)集成学习(ensemble learning)(三)原创 2019-04-16 14:36:28 · 575 阅读 · 0 评论 -
【数据竞赛】“达观杯”文本智能处理挑战赛6——模型优化
文章目录一、超参数1、网格搜索2、随机搜索3、贝叶斯优化二、Stacking1、核心图解(1)构建新的训练集(2)构建新的测试集(3)最终的训练与预测2、示例(1)构建新的训练集(2)构建新的测试集(3)多模型的处理(4)最终的训练与预测三、实现一、超参数优化可以分为参数优化和超参数优化。其中,可学习的参数通过优化算法可以进行优化;还有一类参数是用来定义模型结构或优化策略的,这类参数称为超参数...原创 2019-04-15 21:43:36 · 394 阅读 · 0 评论 -
集成学习(ensemble learning)(一)
集成学习(ensemble learning)不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。一、集成学习概述基本思想:对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器。http://www.c...原创 2019-04-12 11:26:32 · 559 阅读 · 0 评论 -
用Scikit-learn和TensorFlow进行机器学习(三)
文章目录分类一、MNIST1、获取数据分类一、MNISTMNIST数据集:70000 张规格较小的手写数字图片。1、获取数据from sklearn.datasets import fetch_mldatamnist = fetch_mldata('MNIST original')print(mnist)...原创 2019-02-11 19:41:01 · 418 阅读 · 0 评论 -
林轩田机器学习基石课程笔记1 -The Learing Problem
一、什么是机器学习1、什么是“学习”?机器学习(Machine Learning),顾名思义,就是让机器(计算机)也能向人类一样,通过观察大量的数据和训练,发现事物规律,获得某种分析问题、解决问题的能力。2、什么是“机器学习”?定义:Improving some performance measure with experence computed from data. 也就是机器从数据...原创 2019-02-22 08:52:53 · 253 阅读 · 0 评论 -
金融贷款逾期的模型构建7——模型融合
文章目录一、集成学习1、Bagging2、Boosting3、Stacking(1)核心图解a、构建新的训练集b、构建新的测试集c、最终的训练与预测(2)示例a、构建新的训练集b、构建新的测试集c、多模型的处理d、最终的训练与预测三、实现1、Reference数据传送门(data.csv):https://pan.baidu.com/s/1G1b2QJjYkkk7LDfGorbj5Q目标:数据...原创 2019-01-09 19:33:58 · 705 阅读 · 0 评论 -
金融贷款逾期的模型构建6——特征选择
文章目录一、原理数据传送门(data.csv):https://pan.baidu.com/s/1G1b2QJjYkkk7LDfGorbj5Q目标:数据集是金融数据(非脱敏),要预测贷款用户是否会逾期。表格中 “status” 是结果标签:0表示未逾期,1表示逾期。任务:分别用IV值和随机森林进行特征选择。然后分别构建模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和Lig...原创 2019-01-05 20:20:32 · 1814 阅读 · 0 评论 -
金融贷款逾期的模型构建1
数据data_all.csv文件是非原始数据,已经处理过了。数据是金融数据, 我们要做的是预测贷款用户是否会逾期。表格中, status是标签: 0表示未逾期, 1表示逾期。任务——模型构建给定数据集,数据三七分,随机种子2018。(在任务1中什么都不用考虑,即不需数据处理和模型调参)调用sklearn的包,简单构建逻辑回归、SVM和决策树3个模型,评分方式任意(e.g. 准确度和auc值...原创 2018-12-18 10:10:56 · 988 阅读 · 1 评论 -
金融贷款逾期的模型构建3——模型评估
目标:记录7个模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。一、评价指标1、基本概念对于一个二分类问题,预测与真实结果会出现四种情况。真实情况 \ 预测情况正类负类正类TP(True Positive)FN(Fal...原创 2018-12-21 11:12:26 · 1661 阅读 · 0 评论 -
集成学习(ensemble learning)(三)
集成学习系列第三篇(Boosting相关方法),传送前两篇:集成学习(ensemble learning)(一)集成学习(ensemble learning)(二)文章目录一、一、原创 2019-04-14 21:10:53 · 509 阅读 · 0 评论