- 博客(11)
- 资源 (3)
- 收藏
- 关注
原创 【数据挖掘】三次指数平滑法
概念:时间序列的态势具有稳定性或规则性,所以时间序列可被合理地顺势推延;他认为最近的过去态势,在某种程度上会持续到未来,所以将较大的权数放在最近的资料。对比:简单的全期平均:对时间数列的过去数据一个不漏地全部加以同等利用移动平均法:不考虑较远期的数据,并在加权移动平均法中给予近期资料更大的权重指数平滑法:兼容了全期平均和移动平均所长,不舍弃过去的数据,但是仅给予逐渐减弱
2017-03-20 15:11:39 4173
转载 【数据挖掘】关联规则的术语及定义
项目:交易数据库中的一个字段,对超市的交易来说一般是指一次交易中的一个物品。例如,客户在某次交易中购买了“面包”和“牛奶”,则“面包”和“牛奶”代表了2个不同的项目。 交易:某个客户在一次交易中,发生的所有项目的集合。在上例中,交易为:{“面包”,“牛奶”}。 项目集:包含若干个项目的集合。项目集可能是一个交易,也可能不是一个交易,但一个交易一定是一个项目集。上例中{“
2017-03-16 17:27:39 2063
原创 【机器学习】GBDT(Gradient Boosting Decision Tree)
GBDT(Gradient Boosting Decision Tree),迭代决策树,一种迭代的决策树算法,该算法由多棵决策树组成,所有树的输出结果累加起来就是最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。分支的顺序:最小均方差每个人的预测误差平方和 除以 N。被预测出错的人数越多,错的越离
2017-03-16 09:56:29 813
原创 【机器学习】Boosting&Adaboost
Boosting由来Kearns & Valiant (1984) PAC学习模型 提出问题: 1) 强学习算法:存在一个多项式时间的学习算法以识别一组概念,且识别的正确率很高。 2) 弱学习算法:识别一组概念的正确率仅比随机猜测略好。 3) 弱学习器与强学习器的等价问题。如果两者等价,只需找到一个比随机猜测略好的学习算法,就可以将其提升为强学习算法。Boosting概念用来提高弱分类
2017-03-15 11:21:13 951
原创 【机器学习】KKT条件
概念:KTT条件是指在满足一些有规则的条件下, 一个非线性规划(Nonlinear Programming)问题能有最优化解法的一个必要和充分条件. 这是一个广义化拉格朗日乘数的成果. 一般地, 一个最优化数学模型的列标准形式参考开头的式子, 所谓 Karush-Kuhn-Tucker 最优化条件,就是指上式的最优点x∗必须满足下面的条件: - 1. 约束条件满足gi(x∗)≤0,i=1,2,…,
2017-03-14 22:53:48 1430
转载 【数据挖掘】异常检测
简介异常检测的基本思想:若发生了小概率事件,就认为出现了异常。常用的异常检测方法是利用高斯密度函数,计算数据出现的概率,如果发现了概率小于某个阈值的数据,就认为该数据是异常的。异常检测也是一种模式二分类方法,但两类数据严重不平衡,异常数据要显著少于正常数据。异常检测通常只需要对正常数据进行建模。异常检测还可以用于数据清洗或剪枝,减少过拟合提升性能。基于高斯(
2017-03-13 22:28:16 7138
转载 漫谈:机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0 // 到自己的
2017-03-13 17:05:55 397
原创 【机器学习】KNN k近邻分类算法
概念“近朱者赤,近墨者黑”,由你的邻居来推断出你的类别。 从训练集中找到和测试数据最接近的k条记录,然后根据他们的主要分类来决定新数据的类别。该算法涉及3个主要因素:训练集、距离或相似的度量、k的大小。步骤算距离:给定测试对象,计算它与训练集中的每个对象的距离找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻做分类:根据这k个近邻归属的主要类别,确定测试对象的分类主要问题k的大小如何选
2017-03-13 16:33:20 718
原创 【数据挖掘】用户画像
概念区分Persona和Profile,经常都翻译为用户画像,二者的概念有相关的部分,但是也有区别。 - Persona,也叫做用户角色,是描绘抽象一个自然人的属性,用于产品和用户调研。 - Profile,是和数据挖掘、大数据息息相关的应用。通过数据建立描绘用户的标签。 本文讨论的是Profile。 作用精准营销,分析产品潜在用户,针对特定群体利用短信邮件等方式进行营销; 用户统计 数
2017-03-13 10:00:43 8228 2
原创 【机器学习】k-fold cross validation(k-折叠交叉验证)
k-折叠交叉验证就是将训练集的1/k作为测试集,每个模型训练k次,测试k次,错误率为k次的平均,然后平均率最小的模型Mi。
2017-03-13 09:27:04 40214 3
动态规划_背包九讲
2017-10-13
Hadoop2.8 可用 eclipse插件
2017-10-13
C程序设计语言-高清-分目录-可标注版-机械工业出版社
2017-02-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人