朴素贝叶斯NB

朴素贝叶斯NB1. 朴素贝叶斯公式2. 朴素贝叶斯实例3. 拉普拉斯平滑的朴素贝叶斯3.1 拉普拉斯平滑3.2 引入拉普拉斯平滑后的公式4. sklearn.naive_bayes 1. 朴素贝叶斯公式 朴素贝叶斯(Naive Bayes)的"朴素"是假设各个特征之间相互独立...

2019-05-20 19:58:37

阅读数 78

评论数 0

逻辑回归LR

逻辑回归LR1. 二分类1.1二元逻辑回归的模型1.2 二元逻辑回归的损失函数(目标函数)1.3 二元逻辑回归的损失函数的优化方法1.4 二元逻辑回归的正则化2. 多分类2.1 多元逻辑回归的概率分布3. sklearn.linear_model.LogisticRegression3.1 skl...

2019-05-20 19:57:16

阅读数 38

评论数 0

谷歌微软等科技巨头数据科学面试107道真题:你能答出多少

General Questions Apple Suppose you’re given millions of users that each have hundreds of transactions and these millions of transactions are for te...

2019-04-24 21:11:43

阅读数 113

评论数 0

一篇写的很好的XGBoost的博客

转 一篇写的很好的XGBoost的博客(于简书转载) 2017年12月23日 17:05:38 fourierr 阅读数:817 ...

2019-04-02 11:41:22

阅读数 74

评论数 0

kmeans聚类基本思想

聚类的基本思想 俗话说"物以类聚,人以群分" 聚类(Clustering)是一种无监督学习(unsupervised learning),简单地说就是把相似的对象归到同一簇中。簇内的对象越相似,聚类的效果越好。 定义:给定一个有个对象的数据集,聚类将数据划分为个...

2019-03-14 18:02:58

阅读数 37

评论数 0

Hive分析函数和窗口函数

Hive分析函数和窗口函数 在Hive 0.11之后支持的,扫描多个输入的行计算每行的结果。通常和OVER,PARTITION BY, ORDER BY, WINDOWING配合使用。和传统的分组结果不一样,传统的结果每组中只有一个结果。分析函数的结果会出现多次,和每条记录都连接输出。 语法形式如...

2019-03-11 21:34:03

阅读数 32

评论数 0

机器学习-10:MachineLN之样本不均衡

版权声明:本文为博主原创文章,未经博主允许不得转载。有问题可以加微信:lp9628(注明CSDN)。 https://blog.csdn.net/u014365862/article/d...

2019-02-21 20:28:15

阅读数 64

评论数 0

图论概念:Degree Centrality 和 Betweenness Centrality

该概念是我看到: http://www.impactjournals.com/oncotarget/index.php?journal=oncotarget&page=article&op=v...

2019-02-20 11:22:06

阅读数 100

评论数 0

hive 抽样

在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLING)的功能,能够根据...

2018-12-18 17:54:45

阅读数 36

评论数 0

R语言与格式、日期格式、格式转化

版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/50677065 ...

2018-11-27 17:12:53

阅读数 102

评论数 0

R语言数据集合并、数据增减、不等长合并

版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/50676894 ...

2018-11-27 17:10:19

阅读数 79

评论数 1

练习题︱基于今日头条开源数据(二)——两款Apriori算法实践

版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/80610572 ...

2018-11-27 17:06:43

阅读数 64

评论数 0

连续变量最优分箱--基于CART算法

关于变量分箱主要分为两大类:有监督型和无监督型对应的分箱方法:A. 无监督:(1) 等宽 (2) 等频 (3) 聚类B. 有监督:(1) 卡方分箱法(ChiMerge) (2) ID...

2018-11-27 17:01:21

阅读数 560

评论数 0

完整的R语言预测建模实例-从数据清理到建模预测

概述 本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多个算法建模,交叉验证以及多个预测模型的比较全过程,注重在实际数据建模过程中的实际问题和挑战,主要包括以下五个方面的挑战: 缺失值的挑战异常值的挑战不...

2018-11-27 16:24:08

阅读数 291

评论数 0

完整的R语言预测建模实例-从数据清理到建模预测

概述 本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多个算法建模,交叉验证以及多个预测模型的比较全过程,注重在实际数据建模过程中的实际问题和挑战,主要包括以下五个方面的挑战: 缺失值的挑战异常值的挑战不...

2018-11-27 16:23:59

阅读数 760

评论数 1

多变量分析”——数据挖掘、数据分析

I。多重对应分析   多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对...

2018-11-26 21:40:29

阅读数 133

评论数 0

多变量分析”——数据挖掘、数据分析

I。多重对应分析   多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对...

2018-11-26 21:40:01

阅读数 3239

评论数 0

多变量分析”——数据挖掘、数据分析

I。多重对应分析   多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对...

2018-11-26 21:40:01

阅读数 48

评论数 0

用户贷款风险预测之Top10初体验

写在前面: DataCastle智慧中国杯全国大数据创新应用大赛:本次参加的是三大赛题中的用户贷款风险预测(算法竞赛) 距离上次发博文又过去近两个月了,坚持写博客是件不容易的事,还得继续努力!中间过了个年,打了个比赛,时间过得真快,不过没有闲着,用寒假时间终于拿到比较满意的成绩。参加这个比赛是快...

2018-11-15 21:33:58

阅读数 35

评论数 0

xgboost入门与实战(实战调参篇)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sb19931201/article/details/52577592 ...

2018-11-15 21:30:30

阅读数 59

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭