数据挖掘
文章平均质量分 78
Jie Qiao
邮箱:358463121@qq.com
展开
-
带你理解beta分布
相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。举一个简单的例子,熟悉棒球运动的都知道有一个指标就是棒球击球率(b原创 2016-09-17 15:08:17 · 81369 阅读 · 25 评论 -
带你理解EM算法
很多时候,我们都要最大化似然度来求得一个参数θθ\theta 的最优值。但是,很多时候,当我们的模型中存在隐变量的时候(比如,一个词所属的主题,聚类问题中样本的类别, etc.),我们的似然度是很难求的。下面是该似然度的式子,其中z表示不可观测的变量,x表示可观测的变量,由于z是不可观测的,所以,要求似然度,我们必须要对z求和或求积分(连续的时候求积分,离散的时候求和)。L(θ)=∑i=1...原创 2018-03-02 11:33:13 · 2129 阅读 · 1 评论 -
PageRank算法在社交网络上的应用
PageRank算法介绍pagerank算法的核心思想是,计算一个用户随机点击一个网站然后不停点击从而到达各个网站的概率。而一个网站的打开概率又取决于那些指向他自己的那些网站的概率,所以这个概率的计算是一个不断迭代的过程。一个简单的例子:B,C,D同时指向A,我们认为,BCD的PR是0.25,那么A的PR值就是0.75 但是,如下图,如果网站D有3个外链,那么你从网站D跳到网站A的概...原创 2018-02-21 10:40:30 · 12827 阅读 · 2 评论 -
XGBoost+LR融合方案
Xgboost+LR融合方案这是14年,facebook提出的一种融合方法。他的核心思想是将boosting看作是一个将样本进行非线性变换的方法。对于连续的特征:一个简单的非线性变化就是将特征划分到不同的区域(bin),然后再将这些区域的编号看作一个离散的特征来进行训练。这也就是俗称的连续变量离散化方法,这有非常多的方法可以完成这项事情。对于离散的特征:我们可以直接对特征做一个笛卡尔积从而得到一系列原创 2017-09-15 16:25:20 · 8581 阅读 · 0 评论 -
贝叶斯推断简介
这篇文章将带你在高处俯瞰贝叶斯的风景。世界是确定的还是随机的?或许穷尽一生我也无法找到答案,但这并不妨碍我们去领略这两个世界风景啊。频率学派认为参数是一个确定的常数,而贝叶斯则认为参数是一个随机变量,本文要讲的正是使用贝叶斯推断的方法,在这不确定的世界中探索。原创 2017-09-22 22:21:27 · 8758 阅读 · 2 评论 -
R语言stan概率编程
介绍数以千计的用户依靠stan在社会,生物和物理科学,工程和商业进行统计建模,数据分析和预测的工作。用户在Stan概率编程语言中可以基于对数概率密度函数,得到:完整的贝叶斯统计推理与MCMC抽样(NUTS,HMC)近似贝叶斯推理与变分推断(variational inference)(ADVI)优化最大惩罚似然估计(penalized maximum likelihood es...原创 2017-04-16 10:37:32 · 15340 阅读 · 2 评论 -
prophet:时间序列预测模型原理
prophet:时间序列预测原理介绍prophet是Facebook 开源一款基于 Python 和 R 语言的数据预测工具即“先知”。Facebook 表示,Prophet 相比现有预测工具更加人性化,并且难得地提供 Python 和R的支持。它生成的预测结果足以和专业数据分析师媲美。时间序列模型基本模型 y(t)=g(t)+s(s)+h(t)+ϵty(t)=g(t)+s(s)+h(t)+\e原创 2017-04-16 11:09:05 · 28909 阅读 · 0 评论 -
xgboost中的数学原理
xgboost中的数学原理boosting翻译过来就是提升的意思,通过研究如果将许多个弱分类器集成在一起提升为一个强分类器就是多数boosting算法所研究的内容。其中最为经典的算法就是Adaboost,gdbt,xgboost等算法,本文将从xgboost的原理出发,带大家理解boosting算法。由于xgboost是提升树模型,所以它与决策树是息息相关的,它通过将很多的决策树集成起来,从而得到一原创 2017-03-30 23:29:48 · 11173 阅读 · 2 评论 -
使用H2O进行集成学习
使用H2O进行集成学习介绍集成学习就是组合多个机器学习算法,从而得到更好的预测性能。许多流行的现代机器学习算法实际上就是集成。比如说随机森林 和 Gradient Boosting Machine (GBM)都是2个集成学习器。Bagging(例如随机森林)和boosting(例如GBM)是集成方法,其采用一系列弱学习器(例如,决策树)来得到单个,强大的集成学习器。H2O的Stacked集成算法是有翻译 2017-03-02 21:37:21 · 5980 阅读 · 0 评论 -
探索性数据分析
探索性数据分析介绍当有人扔给你一份数据时,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手。如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。 首先什么是探索性数据分析(Exploratory Data Analysis,EDA)? 实际上,这是一系列的方法,它的目的就是让你最大化对数据的直觉,为了让你对数据有感觉,你不仅需要原创 2017-02-12 18:56:56 · 36436 阅读 · 3 评论 -
不平衡数据分类算法介绍与比较
在数据挖掘中,经常会存在不平衡数据的分类问题,比如在异常监控预测中,由于异常就大多数情况下都不会出现,因此想要达到良好的识别效果普通的分类算法还远远不够,这里介绍几种处理不平衡数据的常用方法及对比。翻译 2016-08-28 21:41:28 · 44869 阅读 · 9 评论 -
kaggle比赛集成指南
集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。在第一部分中,我们会讨论从提交文件中建立集成。主要包括:投票集成平均排名平均第二部分我们会讨论 通过 generalization/blending等方法来创建集成。我会在后续回答为什么集成能够减少泛化误差。最后我会展示不同的集成方法,包括它们的结果以及代码翻译 2016-11-11 23:20:53 · 30543 阅读 · 6 评论 -
社交网络中的Link Prediction
介绍给你一段时间内的社交网络关系,我们能否预测出成员之间在未来的互动? 我们称该问题为Link prediction Problem.他还有另外一些常见的应用,比如社交网站的好友推荐,预测蛋白质间的相互影响,预测犯罪嫌疑人的关系,商品推荐等等。在基于社交网络的Link predition问题中,我们通常要考虑社交网络所带有的特有的特质。所以我们先介绍一下社交网络的几个有趣的性质:po...原创 2018-02-22 23:42:53 · 22310 阅读 · 16 评论