数据挖掘
文章平均质量分 70
你看起来很好吃
这个作者很懒,什么都没留下…
展开
-
Apriori算法
基础概念:频繁项集: 如果项集I 的相对支持度满足预定义的最小支持度阈值,则I 是频繁项集。先验性质:频繁项集的所有非空子集也一定是频繁的。Apriori算法使用一种称为逐层搜索的迭代方法,其中k项集用于搜索(k+1)项集。首先,通过扫描数据库,累计每个项的个数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记为L1,。然后,使用L1,通过连接、剪枝两步走,找到频繁转载 2015-10-29 12:55:03 · 2213 阅读 · 0 评论 -
模型评估方法
分类模型:1、准确率、覆盖率(召回)、命中率、Specificity(负例的覆盖率)先看一个混淆矩阵:实际\预测10 1(正例)ab(弃真)a+b0(负例)c(取伪)dc+d a+cb+da+b+c+d转载 2016-09-19 11:36:52 · 11317 阅读 · 0 评论 -
牛顿法和拟牛顿法
求解无约束最优化问题的常用方法,收敛速度快。 牛顿法:迭代算法,每一步需要求解目标函数的海赛矩阵的逆矩阵,计算比较复杂。1、目标函数的二级泰勒展开,及极小值的必要条件(一阶导数为0),可以求出每一步迭代值的步长:其中,Hk为海赛矩阵,gk为一阶导数在xk处的值。2、算法流程:3、每一步迭代都是下降方向。证明:转载 2016-09-19 11:37:51 · 275 阅读 · 0 评论 -
过拟合问题
问题描述:如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(损失函数可能几乎为 0),但是可能会不能推广到新的数据。回归问题 : 过拟合问题 > image2016-7-17 17:26:8.png" src="http://wiki.sankuai.com/download/attachments/551391419/image2016-7-1转载 2016-09-19 11:38:27 · 307 阅读 · 0 评论 -
线性回归
单变量线性回归:前阵子,一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画 出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是 千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把 房子卖掉,他想知道这房子能卖多少钱。 线性回归 > image2016-7-16 16:36:29.png转载 2016-09-19 11:39:22 · 220 阅读 · 0 评论 -
Adaboost算法
我们之前学习的一些算法都是单挑类型的,即一个算法直接拿来分类和预测。但有时候一个人的力量是有限的,可能准确率只比50%高一点点,这样的学习器,我们称为弱学习器。相应的,如果一个算法正确率很高,则称为强学习器。今天我们要说的就是一个强学习算法,Adaboost算法,他由多个弱学习器进行加权组合而成,每个弱学习器之间还有着紧密联系(这区别于bagging方法),且损失函数是以指数级下降。可以说,三原创 2017-03-04 17:31:40 · 207 阅读 · 0 评论 -
SoftMax回归
我是在学习TensorFlow第一个实践案例《识别手写数字》里面发现简单的多分类问题解决办法SoftMax回归,这一名词的。为什么对多分类算法如此寡闻?因为我们大多学习了二分类之后,就想当然的觉得,可以构建多个二分类模型,比如A、B、C三类,建立A|其他类;B|其他类;C|其他类;来进行多分类预测。拿A|其他类 这个二分类问题来说,可能更加适合 类别B与类别C有种相关性的场景(原创 2017-03-13 16:19:57 · 321 阅读 · 0 评论 -
GBDT
一、理论训练流程:1 估计初值2 按如下方式构造M颗树 2.1 随机选取部分样本作为本颗树的训练数据 2.2 按如下方式寻找最优分裂点,进行N次叶子节点的分裂 2.2.1 对当前所有叶子节点 2.2.1.1转载 2016-09-19 11:26:59 · 806 阅读 · 1 评论 -
神经网络(ANN)
先抛出几个问题:1、怎么求解2、优缺点3、反向传播,梯度为什么会弥散4、激活函数怎么选取5、几个优化方案?一、神经元模型神经网络中最基本的成分就是神经元模型:神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元收到的总输入值将与神经元的阈值(又叫偏置)进行比较,然后通过“激活函数”处理以产生神经元的输出。原创 2017-03-17 22:21:41 · 4169 阅读 · 0 评论 -
朴素贝叶斯NB
1、分类原理简单的说就是利用了概率论的两个公式:全概率公式、贝叶斯公式。假设我们有两个特征X1、X2和一个目标分类Y(0或1)。已知新的样本特征值,预测其分类。这个可以看作是求条件概率P(y|x=(x1,x2)) = P(x,y) / P(x) = P(y)P(x|y) / [ P(y=0)P(x|y=0) + P(y=1)P(x|y=1)]我们可以通过极大似然估计出先验概率P(y原创 2017-03-17 11:34:23 · 355 阅读 · 0 评论 -
数据预处理
一、缺失值填充方法:零值填充平均值/中位数填充(该属性的平均值/中位数;与该元组属同一类的所有样本的均值/中位数)忽略元组推理(回归预测等)二、噪声数据三、去重四、数据降维主成分分析GBDT相关性分析因子分解五、数据抽样六、衍生特征原创 2016-09-19 11:36:13 · 351 阅读 · 0 评论 -
数据挖掘步骤
一、问题分析确定目标变量及其类型(标称、二元、序数、数值)确定挖掘任务类型(分类、聚类、关联、预测、推荐等)二、数据采集ETL特征建设数据探索性分析数据预处理数据存储三、训练模型单模型组合模型模型选择(交叉验证、测试误差、算法优劣等)四、测试模型测试误差模型评估(准确率、召回率、AUC、MSE、提升度等)五、模型迭代线上测试返原创 2016-09-19 11:35:43 · 578 阅读 · 0 评论 -
数据挖掘WIKI
1、为什么进行数据挖掘:信息过载。2、什么是数据挖掘。3、数据挖掘的任务:分类、预测、聚类、关联。4、使用什么技术:统计学、机器学习、模式识别、数据库与数据仓库、信息检索、可视化、算法、高性能计算等。转载 2015-10-27 13:08:01 · 494 阅读 · 0 评论 -
关联分析
基本概念:适用情景:主要算法:模型评估:转载 2015-10-27 13:14:54 · 1287 阅读 · 0 评论 -
MaxEnt
最大熵原理当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫"最大熵模型"。我们常说,不要把所有 的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保转载 2016-09-19 11:28:11 · 5721 阅读 · 1 评论 -
SVM
SVM概率输出Libsvm安装、使用Libsvm数据集格式转换Libsvm官网转载 2016-09-19 11:28:50 · 197 阅读 · 0 评论 -
人工神经网络(ANN)
人工神经网络(ANN) > longxinchen_1128_2015-11-30_221922.jpg" height="250" src="http://wiki.sankuai.com/download/attachments/550600864/longxinchen_1128_2015-11-30_221922.jpg?version=1&modificationDate=1471676转载 2016-09-19 11:29:25 · 481 阅读 · 0 评论 -
逻辑回归(LR)
背景知识:二元的分类问题比如“是否为乳腺癌二分类问题”,我们可以用线性回归的方法求出适合数据的一条直线: 逻辑回归(LR) > 24225255-58bb5f12f94449c093ae4a87e3dfc7bc.gif" height="400" src="http://wiki.sankuai.com/download/attachments/550797985/242转载 2016-09-19 11:31:04 · 1629 阅读 · 0 评论 -
delta法则(梯度下降)
背景:尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。 delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能转载 2016-09-19 11:32:41 · 11068 阅读 · 1 评论 -
感知器法则
感知器以一个实数值向量作为输入,计算这些输入的线性组合,然后如果结果大于某个阈值就输出 1,否则输出-1。更精确地,如果输入为 x1 到 xn,那么感知器计算的输出为: 感知器法则 > image2016-7-16 18:15:44.png" src="http://wiki.sankuai.com/download/attachments/550800419/image2016-7-16%转载 2016-09-19 11:33:52 · 1689 阅读 · 1 评论 -
6、卷积神经网络CNN
我们知道多层神经网络(DNN)有很强的特征学习能力,但是他有一些局限:1、因为全连接,所以权重参数特别多,且对参数初始化很敏感2、正是因为参数很多,所以很容易过拟合。以上这两点在进行图像分类时,尤为严重。卷积神经网络大大缓解了DNN参数多的问题,主要有以下几点:1、全连接,改为局部连接,借鉴猫眼的感受野思想。2、同一个滑动窗口,从左上角滑至右下角的过程中,权重是共享转载 2017-03-22 21:20:05 · 1279 阅读 · 0 评论