机器学习算法
渔好学
微信公众号:渔好学
腾讯数据科学家
展开
-
连续变量最优分箱--基于CART算法
关于变量分箱主要分为两大类:有监督型和无监督型对应的分箱方法:A. 无监督:(1) 等宽 (2) 等频 (3) 聚类B. 有监督:(1) 卡方分箱法(ChiMerge) (2) ID3、C4.5、CART等单变量决策树算法 (3) 信用评分建模的IV最大化分箱 等本篇使用python,基...原创 2018-11-27 17:01:21 · 6707 阅读 · 2 评论 -
连续变量最优分箱--基于CART算法
关于变量分箱主要分为两大类:有监督型和无监督型对应的分箱方法:A. 无监督:(1) 等宽 (2) 等频 (3) 聚类B. 有监督:(1) 卡方分箱法(ChiMerge) (2) ID3、C4.5、CART等单变量决策树算法 (3) 信用评分建模的IV最大化分箱 等本篇使用python,基...转载 2018-10-21 23:51:20 · 4026 阅读 · 0 评论 -
斯坦福CS231N课程学习
斯坦福CS231N课程学习经过多方面的查找资料,对比学习,发现了一个很好的机器学习的课程,斯坦福CS231N课程,课程链接见:http://cs231n.stanford.edu/,课程的大纲和课程表见:http://cs231n.stanford.edu/syllabus.html,里面有课程中用到的ppt等资源,读者可以下载下来进行查看,课程的相关笔记见:http://cs231n.gith...转载 2018-10-22 00:08:07 · 140 阅读 · 0 评论 -
使用Apriori进行关联分析(一)
使用Apriori进行关联分析(一) 大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务。但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入。其中最经典的案例就是关于尿不湿和啤酒的故事。怎样在繁杂的数据中寻找到数据之间的隐藏关系?当然可以使用穷举法,但代价高昂,所以需要使用更加智能...转载 2018-10-24 11:57:57 · 748 阅读 · 0 评论 -
FM系列算法解读(FM+FFM+DeepFM)
综述 在计算广告中,CTR是非常重要的一环。对于特征组合来说,业界通用的做法主要有两大类:FM系列和Tree系列。这里我们来介绍一下FM系列。 在传统的线性模型中,每个特征都是独立的,如果需要考虑特征与特征之间的相互作用,可能需要人工对特征进行交叉组合。非线性SVM可以对特征进行核变换,但是在特征高...转载 2018-11-01 20:26:35 · 734 阅读 · 0 评论 -
XGBoost中参数调优的完整指南(含Python-3.X代码)
CSDN:http://blog.csdn.net/kicilove/article/Github:https://github.com/zhaohuicici?tab=repositories原文链接:https://www.analyticsvidhya.com/blog/2016/03/comple...转载 2018-11-06 10:58:18 · 1256 阅读 · 0 评论 -
分类模型的评价指标--混淆矩阵,ROC,AUC,KS,Lift,Gain
对于分类模型,常用的指标有混淆矩阵、ROC曲线,AUC值,KS曲线以及KS值、Lift图,Gain图等,查阅了很多的资料,加入自己的理解整理了一下他们的计算方法和意义,希望对大家有帮助。1. 混淆矩阵---确定截断点后,评价学习器性能假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应...转载 2018-11-02 15:47:50 · 1737 阅读 · 0 评论 -
xgboost入门与实战(原理篇)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sb19931201/article/details/52557382 xgboost入门与实战(原理篇)前言: xgboost是大规模并行boosted tr...转载 2018-11-15 21:26:26 · 275 阅读 · 0 评论 -
xgboost入门与实战(实战调参篇)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sb19931201/article/details/52577592 xgboost入门与实战(实战调参篇)前言前面几篇博文都在学习原理知识,是时候上数据上模型跑...转载 2018-11-15 21:30:30 · 316 阅读 · 0 评论 -
用户贷款风险预测之Top10初体验
写在前面:DataCastle智慧中国杯全国大数据创新应用大赛:本次参加的是三大赛题中的用户贷款风险预测(算法竞赛) 距离上次发博文又过去近两个月了,坚持写博客是件不容易的事,还得继续努力!中间过了个年,打了个比赛,时间过得真快,不过没有闲着,用寒假时间终于拿到比较满意的成绩。参加这个比赛是快放寒假的时候,想寒假找点事做做,当时就DC有三个比赛了吧,交通赛数据太大玩不动,教育赛觉得没意思,于是...转载 2018-11-15 21:33:58 · 343 阅读 · 0 评论 -
完整的R语言预测建模实例-从数据清理到建模预测
概述本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多个算法建模,交叉验证以及多个预测模型的比较全过程,注重在实际数据建模过程中的实际问题和挑战,主要包括以下五个方面的挑战:缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异以上的几个主要挑战,对于熟悉机器学习的人来说,...转载 2018-11-27 16:24:08 · 1696 阅读 · 1 评论 -
练习题︱基于今日头条开源数据(二)——两款Apriori算法实践
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/80610572 Apriori算法是通过限制候选产生发现频繁...转载 2018-11-27 17:06:43 · 308 阅读 · 0 评论 -
机器学习-10:MachineLN之样本不均衡
版权声明:本文为博主原创文章,未经博主允许不得转载。有问题可以加微信:lp9628(注明CSDN)。 https://blog.csdn.net/u014365862/article/details/79040390 </div> ...转载 2019-02-21 20:28:15 · 194 阅读 · 0 评论 -
kmeans聚类基本思想
聚类的基本思想俗话说"物以类聚,人以群分"聚类(Clustering)是一种无监督学习(unsupervised learning),简单地说就是把相似的对象归到同一簇中。簇内的对象越相似,聚类的效果越好。定义:给定一个有个对象的数据集,聚类将数据划分为个簇,而且这个划分满足两个条件:(1)每个簇至少包含一个对象;(2)每个对象属于且仅属于一个簇。基本思想:对给定的,算法首先给出一个初始的...转载 2019-03-14 18:02:58 · 20775 阅读 · 0 评论 -
一篇写的很好的XGBoost的博客
转 一篇写的很好的XGBoost的博客(于简书转载) 2017年12月23日 17:05:38 fourierr 阅读数:817 ...原创 2019-04-02 11:41:22 · 328 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kevin7658/article/details/50780391 1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归...转载 2018-10-21 22:52:20 · 212 阅读 · 0 评论 -
几种常用的特征选择方法
几种常用的特征选择方法转载 2016年12月14日 16:33:38标签:特征选择6084结合Scikit-learn介绍几种常用的特征选择方法原文 http://dataunion.org/14072.html主题 特征选择 scikit-lea...转载 2018-10-21 22:50:40 · 1600 阅读 · 0 评论 -
一些常见的特征选择方法
现实中产生的特征维度可能很多,特征质量参差不齐,不仅会增加训练过程的时间,也可能会降低模型质量。因此,提取出最具代表性的一部分特征来参与训练就很重要了。通常有特征抽取和特征选择两种方法。这里分别介绍一下。特征抽取特征抽取中最常见的当属PCA了。PCA对于特征之间存在正交关系,数据满足高斯分布或指数分布的数据,作线性变换,使用方差、协方差去噪,生成新的主元,接下来按重要性排序后取少数参与训...转载 2018-10-21 22:47:03 · 1427 阅读 · 0 评论 -
PCA 主成分分析 R 语言实现
主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小 的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。1.R中的主成分和因子分析R的基础安装包中提供了PCA和EFA的函数,分别为princo...原创 2020-07-17 14:40:11 · 1175 阅读 · 0 评论 -
R语言完整建模教程
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_36220483/article/details/52639469 概述本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多...转载 2018-09-27 20:37:59 · 15087 阅读 · 3 评论 -
Kaggle 机器学习竞赛冠军及优胜者的源代码汇总
转 Kaggle 机器学习竞赛冠军及优胜者的源代码汇总 2016年11月18日 22:52:31 愤怒的屎壳郎 阅读数:1425 ...转载 2018-09-27 21:01:44 · 493 阅读 · 0 评论 -
主成分分析和因子分析的理论与速成应用丨R语言和SPSS比较案例
主成分分析和因子分析的理论与速成应用丨R语言和SPSS比较案例小卫哥之数据分析R语言学习者、爬虫、SPSS、民谣关注他13 人赞了该文章本章内容□ 主成分分析□ 探索性因子分析□ 理解其他潜变量模型学习计划:背景在实际的科学研究中,为了更好地、全面地、完整地把握和认识问题,我们往往对反映问题的多个变量进行大量观测,尽可能多地收集关于分析对象的数据信息。在大多数情况下,这些变量之间可能存在着相关性...转载 2018-09-28 15:11:47 · 10239 阅读 · 2 评论 -
模型集成 | 14款常规机器学习 + 加权平均模型融合
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/80905004 模型融合的方法很多,Voting、Avera...转载 2018-10-07 10:21:40 · 1719 阅读 · 0 评论 -
R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/57419862 经统专业看到预测的packages都是很眼馋...转载 2018-10-07 10:55:52 · 732 阅读 · 0 评论 -
聚类︱python实现 六大 分群质量评估指标(兰德系数、互信息、轮廓系数)
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/70577710 之前关于聚类题材的博客有以下两篇: 1、 笔记︱...转载 2018-10-07 10:57:02 · 2772 阅读 · 0 评论 -
机器学习里数据预处理及特征工程总结
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yawei_liu1688/article/details/78674453 机器学习里有一句名言:数据和特征决定了机器学习的上限,...转载 2018-09-28 21:09:23 · 671 阅读 · 0 评论 -
Python 数据分析 数据挖掘 学习路径图
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Qton_CSDN/article/details/70185929 话不多说,相信看到这篇文章的你一定是对数据分析,数据挖掘有兴趣,或者想从事和方面。本文不再累述python对数据分析的重要,数据分...转载 2018-09-28 21:21:07 · 213 阅读 · 0 评论 -
用R建立集成学习模型(boosting、bagging、stacking)
原文地址:https://machinelearningmastery.com/machine-learning-ensembles-with-r/集成学习能够提升准确率,而本文将会介绍如何用R建立三种高效的集成学习模型。 本次案例研究将手把手地教你实现bagging、boosting、stacking,...转载 2018-09-29 10:36:39 · 3222 阅读 · 1 评论 -
集成学习总结 & Stacking方法详解
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/willduan1/article/details/73618677 集成学习主要分为 bagging, boosting 和 stacking方法。本文主要是介绍st...转载 2018-09-29 10:38:51 · 888 阅读 · 0 评论 -
【数据挖掘面经】腾讯+百度+华为(均拿到sp offer)
原文链接 http://m.nowcoder.com/discuss/15168?type=2&order=0&pos=5&page=0&from=timeline&isappinstalled=0原作者分享的福利: 推荐书籍和简历模板 链接: http://pan...转载 2018-09-29 19:46:19 · 3790 阅读 · 0 评论 -
用xgboost模型对特征重要性进行排序
用xgboost模型对特征重要性进行排序在这篇文章中,你将会学习到:xgboost对预测模型特征重要性排序的原理(即为什么xgboost可以对预测模型特征重要性进行排序)。 如何绘制xgboost模型得到的特征重要性条形图。 如何根据xgboost模型得到的特征重要性,在scikit-learn进行特...转载 2018-10-10 15:48:23 · 3515 阅读 · 0 评论 -
RandomForest algorithm之python实现
RandomForest algorithm之python实现 写在之前:像一个优秀的工程师一样使用机器学习,而不要像一个机器学习专家一样使用机器学习方法。--Google &nbs...转载 2018-10-10 15:53:53 · 590 阅读 · 0 评论 -
决策树R语言和python语言实现(不调包)
R 语言:#loadDataloadData <- function(){ dataSet = matrix(c(1,1,0,"yes",1,1,1,"yes",1,0,1,"no",0,1,0,"no",0,1,1,"no"),byrow = T, nrow =5) colnames(dataSet) = c("a","b","c"转载 2018-06-10 17:06:58 · 717 阅读 · 1 评论