自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

转载 使用Apriori进行关联分析(一)

使用Apriori进行关联分析(一)   大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务。但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入。其中最经典的案例就是关于尿不湿和啤酒的故事。怎样在繁杂的数据中寻找到数据之间的隐藏关系?当然可以使用穷举法,但代价高昂,所以需要使用更加智能...

2018-10-24 11:57:57 731

转载 斯坦福CS231N课程学习

斯坦福CS231N课程学习经过多方面的查找资料,对比学习,发现了一个很好的机器学习的课程,斯坦福CS231N课程,课程链接见:http://cs231n.stanford.edu/,课程的大纲和课程表见:http://cs231n.stanford.edu/syllabus.html,里面有课程中用到的ppt等资源,读者可以下载下来进行查看,课程的相关笔记见:http://cs231n.gith...

2018-10-22 00:08:07 131

转载 连续变量最优分箱--基于CART算法

关于变量分箱主要分为两大类:有监督型和无监督型对应的分箱方法:A. 无监督:(1) 等宽 (2) 等频 (3) 聚类B. 有监督:(1) 卡方分箱法(ChiMerge) (2) ID3、C4.5、CART等单变量决策树算法 (3)  信用评分建模的IV最大化分箱 等本篇使用python,基...

2018-10-21 23:51:20 4003

转载 数据挖掘模型中的IV和WOE详解

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kevin7658/article/details/50780391 1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归...

2018-10-21 22:52:20 201

转载 几种常用的特征选择方法

几种常用的特征选择方法转载 2016年12月14日 16:33:38标签:特征选择6084结合Scikit-learn介绍几种常用的特征选择方法原文  http://dataunion.org/14072.html主题 特征选择 scikit-lea...

2018-10-21 22:50:40 1589

转载 一些常见的特征选择方法

现实中产生的特征维度可能很多,特征质量参差不齐,不仅会增加训练过程的时间,也可能会降低模型质量。因此,提取出最具代表性的一部分特征来参与训练就很重要了。通常有特征抽取和特征选择两种方法。这里分别介绍一下。特征抽取特征抽取中最常见的当属PCA了。PCA对于特征之间存在正交关系,数据满足高斯分布或指数分布的数据,作线性变换,使用方差、协方差去噪,生成新的主元,接下来按重要性排序后取少数参与训...

2018-10-21 22:47:03 1404

转载 RandomForest algorithm之python实现

    RandomForest algorithm之python实现          写在之前:像一个优秀的工程师一样使用机器学习,而不要像一个机器学习专家一样使用机器学习方法。--Google  &nbs...

2018-10-10 15:53:53 578

转载 用xgboost模型对特征重要性进行排序

用xgboost模型对特征重要性进行排序在这篇文章中,你将会学习到:xgboost对预测模型特征重要性排序的原理(即为什么xgboost可以对预测模型特征重要性进行排序)。 如何绘制xgboost模型得到的特征重要性条形图。 如何根据xgboost模型得到的特征重要性,在scikit-learn进行特...

2018-10-10 15:48:23 3405

转载 数据分析的五大思维方式

数据分析的五大思维方式。首先,我们要知道,什么叫数据分析。其实从数据到信息的这个过程,就是数据分析。数据本身并没有什么价值,有价值的是我们从数据中提取出来的信息。 然而,我们还要搞清楚数据分析的目的是什么?目的是解决我们现实中的某个问题或者满足现实中的某个需求。那么,在这个从数据到信息的过程中,肯定...

2018-10-10 14:53:30 1748

转载 ggplot 画图

1、Why use ggplot2ggplot2是我见过最human friendly的画图软件,这得益于Leland Wilkinson在他的著作《The Grammar of Graphics》中提出了一套图形语法,把图形元素抽象成可以自由组合的成分,Hadley Wickham把这套想法在R中实现。为什么要学习ggplot2,可以参考ggplot2: 数据分析与图形艺术的序言(btw: ...

2018-10-10 08:32:47 543

转载 聚类︱python实现 六大 分群质量评估指标(兰德系数、互信息、轮廓系数)

版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/70577710 之前关于聚类题材的博客有以下两篇: 1、 笔记︱...

2018-10-07 10:57:02 2758

转载 R+python︱Facebook大规模时序预测『真』神器——Prophet(遍地代码图)

版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/57419862 经统专业看到预测的packages都是很眼馋...

2018-10-07 10:55:52 720

转载 模型集成 | 14款常规机器学习 + 加权平均模型融合

版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/80905004 模型融合的方法很多,Voting、Avera...

2018-10-07 10:21:40 1664

转载 阿里校招数据分析师

2015年8月19日,阿里校招数据分析师笔试题。共计21题(貌似统计漏了一题,应该是单选少了一题,凑合看吧),选择题每个人的都不一样,问答题是一样的。暂时没有答案,希望对大家有用。单选题:1观测宇宙中单位体积内星球的个数,属于什么分布:A学生分布B泊松分布C正态分布D二项分布 2一些关于数据挖掘说法是正确的A数据挖掘...

2018-10-03 22:07:29 1799

转载 京东数据分析面试题

1. 怎么做恶意刷单检测分类问题用机器学习方法建模解决,我想到的特征有:    1)商家特征:商家历史销量、信用、产品类别、发货快递公司等    2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号    3)环境特征...

2018-10-03 22:04:42 2514

转载 试用HQL抽取出连续登录了K天的用户uid

转:http://www.it165.net/database/html/201408/7854.html昨天群上有人发个阿里的面试题,题目描述大概如下:数据源:用户登录表,只有俩个字段,uid和dt试用HQL抽取出连续登录了K天的用户uid第一个想法就是直接用一个UDF解决,按uid分组,把dt收集起来然后在UDF里面...

2018-10-03 21:42:32 249

转载 统计每天的新老用户,日活,周活,月活

版权声明:转载请注明出处! https://blog.csdn.net/ddxygq/article/details/81391718 最近有一个需求,统计每天的新老用户,日活,周活,月活。 我们每天的增量数据会加入到hive历史数据表中,包含用户访问网站的一些信...

2018-10-03 21:28:54 7224

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除