2017年03月_evillist

09月 08月 07月 06月 04月 03月

原创【数据挖掘】三次指数平滑法

概念：时间序列的态势具有稳定性或规则性，所以时间序列可被合理地顺势推延；他认为最近的过去态势，在某种程度上会持续到未来，所以将较大的权数放在最近的资料。对比：简单的全期平均：对时间数列的过去数据一个不漏地全部加以同等利用移动平均法：不考虑较远期的数据，并在加权移动平均法中给予近期资料更大的权重指数平滑法：兼容了全期平均和移动平均所长，不舍弃过去的数据，但是仅给予逐渐减弱

2017-03-20 15:11:39 4173

转载【数据挖掘】关联规则的术语及定义

项目：交易数据库中的一个字段，对超市的交易来说一般是指一次交易中的一个物品。例如，客户在某次交易中购买了“面包”和“牛奶”，则“面包”和“牛奶”代表了2个不同的项目。交易：某个客户在一次交易中，发生的所有项目的集合。在上例中，交易为：{“面包”，“牛奶”}。项目集：包含若干个项目的集合。项目集可能是一个交易，也可能不是一个交易，但一个交易一定是一个项目集。上例中{“

2017-03-16 17:27:39 2067

原创【机器学习】GBDT（Gradient Boosting Decision Tree）

GBDT（Gradient Boosting Decision Tree），迭代决策树，一种迭代的决策树算法，该算法由多棵决策树组成，所有树的输出结果累加起来就是最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。分支的顺序：最小均方差每个人的预测误差平方和除以 N。被预测出错的人数越多，错的越离

2017-03-16 09:56:29 813

原创【机器学习】Boosting&Adaboost

Boosting由来Kearns & Valiant (1984) PAC学习模型提出问题： 1) 强学习算法：存在一个多项式时间的学习算法以识别一组概念，且识别的正确率很高。 2) 弱学习算法：识别一组概念的正确率仅比随机猜测略好。 3) 弱学习器与强学习器的等价问题。如果两者等价，只需找到一个比随机猜测略好的学习算法，就可以将其提升为强学习算法。Boosting概念用来提高弱分类

2017-03-15 11:21:13 951

原创【机器学习】KKT条件

概念：KTT条件是指在满足一些有规则的条件下, 一个非线性规划(Nonlinear Programming)问题能有最优化解法的一个必要和充分条件. 这是一个广义化拉格朗日乘数的成果. 一般地, 一个最优化数学模型的列标准形式参考开头的式子, 所谓 Karush-Kuhn-Tucker 最优化条件，就是指上式的最优点x∗必须满足下面的条件: - 1. 约束条件满足gi(x∗)≤0,i=1,2,…,

2017-03-14 22:53:48 1432

转载【数据挖掘】异常检测

简介异常检测的基本思想：若发生了小概率事件，就认为出现了异常。常用的异常检测方法是利用高斯密度函数，计算数据出现的概率，如果发现了概率小于某个阈值的数据，就认为该数据是异常的。异常检测也是一种模式二分类方法，但两类数据严重不平衡，异常数据要显著少于正常数据。异常检测通常只需要对正常数据进行建模。异常检测还可以用于数据清洗或剪枝，减少过拟合提升性能。基于高斯（

2017-03-13 22:28:16 7139

转载漫谈：机器学习中距离和相似性度量方法

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满足下面几个准则：1) d(x,x) = 0 // 到自己的

2017-03-13 17:05:55 398

原创【机器学习】KNN k近邻分类算法

概念“近朱者赤，近墨者黑”，由你的邻居来推断出你的类别。从训练集中找到和测试数据最接近的k条记录，然后根据他们的主要分类来决定新数据的类别。该算法涉及3个主要因素：训练集、距离或相似的度量、k的大小。步骤算距离：给定测试对象，计算它与训练集中的每个对象的距离找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻做分类：根据这k个近邻归属的主要类别，确定测试对象的分类主要问题k的大小如何选

2017-03-13 16:33:20 718

原创【数据挖掘】推荐系统

概念个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。

2017-03-13 11:28:16 2353

原创【数据挖掘】用户画像

概念区分Persona和Profile，经常都翻译为用户画像，二者的概念有相关的部分，但是也有区别。 - Persona，也叫做用户角色，是描绘抽象一个自然人的属性，用于产品和用户调研。 - Profile，是和数据挖掘、大数据息息相关的应用。通过数据建立描绘用户的标签。本文讨论的是Profile。作用精准营销，分析产品潜在用户，针对特定群体利用短信邮件等方式进行营销；用户统计数

2017-03-13 10:00:43 8228 2

原创【机器学习】k-fold cross validation（k-折叠交叉验证）

k-折叠交叉验证就是将训练集的1/k作为测试集，每个模型训练k次，测试k次，错误率为k次的平均，然后平均率最小的模型Mi。

2017-03-13 09:27:04 40215 3

动态规划_背包九讲

目录第一讲 01背包问题第二讲完全背包问题第三讲多重背包问题第四讲混合三种背包问题第五讲二维费用的背包问题第六讲分组的背包问题第七讲有依赖的背包问题第八讲泛化物品第九讲背包问题问法的变化附：USACO中的背包问题

2017-10-13

Hadoop2.8 可用 eclipse插件

Hadoop 2.8.1 + eclipse 4.7 + jdk 1.8可用。其他请自测。安装教程https://www.cnblogs.com/zhangs1986/p/6798548.html#top

2017-10-13

C程序设计语言-高清-分目录-可标注版-机械工业出版社

本书原著即为C语言的设计者之一Dennis M．Ritchie和著名的计算机科学家Brian W．Kernighan合著的一本介绍C语言的权威经典著作。虽然也是扫描版，但是本版手动添加了目录，读起来更加方便。文字也可以选择高亮、下划线等批注方式。

2017-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人