数据挖掘
文章平均质量分 78
雪伦_
这个作者很懒,什么都没留下…
展开
-
特征选择
特征提取、特征选择是特征工程中的两个重要重要问题,坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 相关链接: 特征选择 1.简介 在下面介绍特征选择方法之前,先进行一个简单的定义 特征(feature): 标签(label):y 2.具体方法 (1)最简单直观的方法,画图观察法。观察某一特征与与标签之间是否存在某种趋势关系。以下图为例,数据来源2015年原创 2016-04-22 20:22:32 · 5855 阅读 · 0 评论 -
过拟合(原因、解决方案、原理)
1.定义 标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell 2.出现过拟合的一些原因 (1)建模样本抽取错误,包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务原创 2016-04-25 08:38:15 · 53077 阅读 · 1 评论 -
准确率,召回率,F1 值、ROC,AUC、mse,mape评价指标
在机器学习、数据挖掘领域,工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标,其中第一、二类主要用于分类场景、第三类主要用于回归预测场景,基本思路是从概念公式,到优缺点,再到具体应用(分类问题,本文以二分类为例)。 1.准确率P、召回率R、F1 值定义 准确率(Precision):P=TP/(TP+FP)。通俗地讲,就是预测正确的正例数据占预测为正例数原创 2016-06-17 12:58:06 · 61466 阅读 · 13 评论 -
数据预处理
1.Why为什么要进行数据预处理 坊间传言,工业界大部分机器学习、数据挖掘业务80%在倒腾数据,20%在研究算法。数据质量不高,再好的模型也没用数据没问题,但因为一些形式的问题,一些模型也会不work,比如说LR、SVM、DNN都对数据预处理有很高的要求,处理的好与不好最终结果差距很大。当然就笔者的经验而言,貌似基于树的模型貌似对这块不是很敏感。上面的话可能有点泛泛而谈,下面的例子可能会给读原创 2016-07-15 21:05:01 · 6127 阅读 · 0 评论 -
随机采样方法
背景 随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。随机模拟中有一个重要的问题就是给转载 2016-08-04 16:35:40 · 2985 阅读 · 0 评论 -
模型融合
本文包括常见的模型融合方法、代码链接、进阶的思路。1.线性加权融合方法从算法的角度来看,则最常用的是采用加权型的混合推荐技术,即将来自不同推荐算法生成的候选结果及结果的分数,进一步进行组合(Ensemble)加权,生成最终的推荐排序结果。具体来看,比较原始的加权型的方法是根据推荐效果,固定赋予各个子算法输出结果的权重,然后得到最终结果。很显然这种方法无法灵活处理不同的上下文场景,因为不同的算法的结果原创 2016-08-25 21:55:52 · 13610 阅读 · 4 评论 -
概率分布
常见的概率分布,其中E表示期望,var表示方差,mode表示众数,H表示熵。 1.伯努利分布 单一二元变量x∈{0,1}的分布,例如,抛硬币的结果。它由一个连续参数∈[0,1]控制,这个参数表示x = 1的概率。 伯努利分布式二项分布对于单一观测的特殊情况。它对于的共轭先验是Beta分布。 2.Beta分布 连续变量∈[0,1]的分布,经常用于表示某些二元事件的概率。它有两个参数a和b原创 2016-06-14 19:41:56 · 4294 阅读 · 0 评论 -
Hyperopt
1.简介 Hyperopt是一个python库,结合MongoDB可以进行分布式调参,快速找到相对较优的参数。安装的时候需要指定dev版本才能使用模拟退火调参,也支持暴力调参、随机调参等策略。 2.Win7安装软件 MongoDB 地址Hyperopt 地址安装 MongoDB一路默认安装即可Hyperopt先进行解压,然后通过命令 python setup.py instal原创 2016-06-28 14:09:32 · 13373 阅读 · 3 评论