算法模型
文章平均质量分 63
diggerTT
稳扎稳打,步步为营
展开
-
算法模型---树相关---决策树
基于决策树的分类系列内容为自己学习数据挖掘的一个笔记 本部分内容来源《数据挖掘导论》4.3节一、决策树生成算法所谓决策树,就是一个类似于流程图的树形结构,树内部的每一个节点代表的是对一个属性的测试,树的分支代表该属性的每一个测试结果,而树的每一个叶子节点代表一个类别。树的最高层是就是根节点。下图即为一个决策树的示意描述,内部节点用矩形表示,叶子节点用椭圆表示。该决策树用于对一个顾客是否会在本商场购原创 2017-11-01 17:50:39 · 36304 阅读 · 5 评论 -
算法模型---聚类分析之DBSCAN密度聚类算法
来源 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的抗噪聚类方法)。和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。 1. 密度聚类原理 DBSCAN是一种基于密度的聚类算法,这类密度聚类算法一般假定类别可以通过样本分布的原创 2018-03-27 23:41:48 · 4333 阅读 · 1 评论 -
算法模型---关联规则挖掘学习
来源:《数据挖掘概念与技术:第六章》 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。 关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品(图6.1)之间联系,分析顾客...转载 2018-06-11 19:13:54 · 9874 阅读 · 0 评论 -
算法模型---降维---主成分分析
来源 RPC是指远程过程调用本地过程调用RPC就是要像调用本地的函数一样去调远程函数。在研究RPC前,我们先看看本地调用是怎么调的。假设我们要调用函数Multiply来计算lvalue * rvalue的结果:1 int Multiply(int l, int r) {2 int y = l * r;3 return y;4 }5 6 int lvalue =原创 2018-06-11 11:46:11 · 1198 阅读 · 0 评论 -
算法模型---回归模型---spark回归案例
用Spark Python构建回归模型数据数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息(bike sharing数据集下载地址:http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset)。 各个字段的含义如下:- instant: record inde...原创 2018-08-03 09:52:57 · 1175 阅读 · 0 评论 -
算法模型---逻辑回归学习
其他参考资料: 《Logistic Regression 模型简介》,来源:FIN ·2015-05-08 10:00原创 2018-09-24 13:16:17 · 742 阅读 · 0 评论 -
算法模型---朴素贝叶斯
贝叶斯分类器是基于贝叶斯定理构建出来的分类器,是一个统计分类器。对分类方法进行比较的有关研究表明,简单贝叶斯分类器在分类性能上与决策树和神经网络都是可比拟的。在处理大规模数据时,贝叶斯分类器已经表现出较高的准确性和运算性能。 贝叶斯分类器的假设是:指定类别中,样本各特征之间相互独立,即某一特征不同取值的概率与其他特征的取值没有任何关系。我们的目标是计算P(H/X),式中X={x1,x2,…,xn}原创 2017-11-25 17:31:03 · 1459 阅读 · 0 评论 -
算法模型---树相关---随机森林原理与算法实现
随机森林原理随机森林是建立在决策树基础上集成方法(决策树中,由于噪声等因素及高方差的影响,可能会产生一些错误的分支,在没有修剪树枝的时候更容易如此)。随机森林通过有放回的方式从原始样本中随机抽取部分样本产生新的样本集合,重复这样的操作产生多个样本集合,每个样本集合后续都会产生一棵决策树;在每棵决策树产生的过程中,在每个节点进行分支的时候都随机地抽取部分特征参与决策树的分支,然后递归分支,递归分支的过原创 2017-11-03 14:50:03 · 13055 阅读 · 5 评论 -
算法模型---回归模型
1、基本概念线性回归假设因变量与自变量之间存在线性关系,因变量可通过自变量线性叠加而得到,即因变量和自变量之间可用如下方式表示。 y=w0+w1x1+w2x2+...+wnxny=w_0+w_1x_1+w_2x_2+...+w_nx_n式中x1,...,xn{x_1,...,x_n}为自变量,w1,...,wn{w_1,...,w_n}为权重系数,w0w_0为偏置。 线性回归就是要解决如何利用样原创 2017-12-25 09:10:23 · 6295 阅读 · 1 评论 -
算法模型---支持向量机(SVM)
本文主要参考该博客1、从logistic回归到SVM在Logistic中样假设任一一个变样取1的概率为 pi=11+e−(β0+β1x(i)1+β2x(i)2+...+βpx(i)p+ε)p_i=\frac{1}{1+e^{-(\beta_0+\beta_1 x^{(i)}_1+\beta_2 x^{(i)}_2+...+\beta_p x^{(i)}_p+\varepsilon)原创 2017-12-27 09:53:45 · 3983 阅读 · 0 评论 -
算法模型---时间序列模型
1、时间序列时间序列是时间间隔不变的情况下收集的不同时间点数据集合,这些集合被分析用来了解长期发展趋势及为了预测未来。 时间序列与常见的回归问题的不同点在于: 1、时间序列是跟时间有关的;而线性回归模型的假设:观察结果是独立的在这种情况下是不成立的。 2、随着上升或者下降的趋势,更多的时间序列出现季节性趋势的形式;常用的时间序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。2、时间原创 2018-01-16 09:04:58 · 82132 阅读 · 3 评论 -
算法模型---树相关---Boosting 相关知识
boosting 是一种将弱分类器转化为强分类器的方法统称。adaboost是其中的一种,采用了exponential loss function(其实就是用指数的权重),根据不同的loss function还可以有其他算法,比如L2Boosting, logitboost…Boosting 是一种将弱分离器组合起来形成强分类器的算法框架原创 2018-03-31 19:01:48 · 482 阅读 · 0 评论