自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

原创 【数据挖掘】三次指数平滑法

概念:时间序列的态势具有稳定性或规则性,所以时间序列可被合理地顺势推延;他认为最近的过去态势,在某种程度上会持续到未来,所以将较大的权数放在最近的资料。对比:简单的全期平均:对时间数列的过去数据一个不漏地全部加以同等利用移动平均法:不考虑较远期的数据,并在加权移动平均法中给予近期资料更大的权重指数平滑法:兼容了全期平均和移动平均所长,不舍弃过去的数据,但是仅给予逐渐减弱

2017-03-20 15:11:39 4173

转载 【数据挖掘】关联规则的术语及定义

项目:交易数据库中的一个字段,对超市的交易来说一般是指一次交易中的一个物品。例如,客户在某次交易中购买了“面包”和“牛奶”,则“面包”和“牛奶”代表了2个不同的项目。    交易:某个客户在一次交易中,发生的所有项目的集合。在上例中,交易为:{“面包”,“牛奶”}。    项目集:包含若干个项目的集合。项目集可能是一个交易,也可能不是一个交易,但一个交易一定是一个项目集。上例中{“

2017-03-16 17:27:39 2063

原创 【机器学习】GBDT(Gradient Boosting Decision Tree)

GBDT(Gradient Boosting Decision Tree),迭代决策树,一种迭代的决策树算法,该算法由多棵决策树组成,所有树的输出结果累加起来就是最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。分支的顺序:最小均方差每个人的预测误差平方和 除以 N。被预测出错的人数越多,错的越离

2017-03-16 09:56:29 813

原创 【机器学习】Boosting&Adaboost

Boosting由来Kearns & Valiant (1984) PAC学习模型 提出问题: 1) 强学习算法:存在一个多项式时间的学习算法以识别一组概念,且识别的正确率很高。 2) 弱学习算法:识别一组概念的正确率仅比随机猜测略好。 3) 弱学习器与强学习器的等价问题。如果两者等价,只需找到一个比随机猜测略好的学习算法,就可以将其提升为强学习算法。Boosting概念用来提高弱分类

2017-03-15 11:21:13 951

原创 【机器学习】KKT条件

概念:KTT条件是指在满足一些有规则的条件下, 一个非线性规划(Nonlinear Programming)问题能有最优化解法的一个必要和充分条件. 这是一个广义化拉格朗日乘数的成果. 一般地, 一个最优化数学模型的列标准形式参考开头的式子, 所谓 Karush-Kuhn-Tucker 最优化条件,就是指上式的最优点x∗必须满足下面的条件: - 1. 约束条件满足gi(x∗)≤0,i=1,2,…,

2017-03-14 22:53:48 1430

转载 【数据挖掘】异常检测

简介异常检测的基本思想:若发生了小概率事件,就认为出现了异常。常用的异常检测方法是利用高斯密度函数,计算数据出现的概率,如果发现了概率小于某个阈值的数据,就认为该数据是异常的。异常检测也是一种模式二分类方法,但两类数据严重不平衡,异常数据要显著少于正常数据。异常检测通常只需要对正常数据进行建模。异常检测还可以用于数据清洗或剪枝,减少过拟合提升性能。基于高斯(

2017-03-13 22:28:16 7138

转载 漫谈:机器学习中距离和相似性度量方法

在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0                    // 到自己的

2017-03-13 17:05:55 397

原创 【机器学习】KNN k近邻分类算法

概念“近朱者赤,近墨者黑”,由你的邻居来推断出你的类别。 从训练集中找到和测试数据最接近的k条记录,然后根据他们的主要分类来决定新数据的类别。该算法涉及3个主要因素:训练集、距离或相似的度量、k的大小。步骤算距离:给定测试对象,计算它与训练集中的每个对象的距离找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻做分类:根据这k个近邻归属的主要类别,确定测试对象的分类主要问题k的大小如何选

2017-03-13 16:33:20 718

原创 【数据挖掘】推荐系统

概念个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。

2017-03-13 11:28:16 2353

原创 【数据挖掘】用户画像

概念区分Persona和Profile,经常都翻译为用户画像,二者的概念有相关的部分,但是也有区别。 - Persona,也叫做用户角色,是描绘抽象一个自然人的属性,用于产品和用户调研。 - Profile,是和数据挖掘、大数据息息相关的应用。通过数据建立描绘用户的标签。 本文讨论的是Profile。 作用精准营销,分析产品潜在用户,针对特定群体利用短信邮件等方式进行营销; 用户统计 数

2017-03-13 10:00:43 8228 2

原创 【机器学习】k-fold cross validation(k-折叠交叉验证)

k-折叠交叉验证就是将训练集的1/k作为测试集,每个模型训练k次,测试k次,错误率为k次的平均,然后平均率最小的模型Mi。

2017-03-13 09:27:04 40214 3

动态规划_背包九讲

目录 第一讲 01背包问题 第二讲 完全背包问题 第三讲 多重背包问题 第四讲 混合三种背包问题 第五讲 二维费用的背包问题 第六讲 分组的背包问题 第七讲 有依赖的背包问题 第八讲 泛化物品 第九讲 背包问题问法的变化 附:USACO中的背包问题

2017-10-13

Hadoop2.8 可用 eclipse插件

Hadoop 2.8.1 + eclipse 4.7 + jdk 1.8可用。其他请自测。安装教程https://www.cnblogs.com/zhangs1986/p/6798548.html#top

2017-10-13

C程序设计语言-高清-分目录-可标注版-机械工业出版社

本书原著 即为C语言的设计者之一Dennis M.Ritchie和著名的计算机科学家Brian W.Kernighan合著的一本介绍C语言的权威经典著作。 虽然也是扫描版,但是本版手动添加了目录,读起来更加方便。文字也可以选择高亮、下划线等批注方式。

2017-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除