- 博客(45)
- 资源 (7)
- 收藏
- 关注
转载 EM算法
EM算法实例(一) 这是一个抛硬币的例子,H表示正面向上,T表示反面向上,参数θ表示正面朝上的概率。硬币有两个,A和B,硬币是有偏的。本次实验总共做了5组,每组随机选一个硬币,连续抛10次。如果知道每次抛的是哪个硬币,那么计算参数θ就非常简单了,如上图所示。 如果不知道每次抛的是哪个硬币呢?那么,我们就需要用EM算法,基本步骤为:1、给θA和θB一个初始值;2、(E-step)估计每组实验
2018-01-15 13:43:58 810
原创 聚类
聚类任务 聚类任务是无监督学习的一种,没有标记。聚类试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个“簇”。聚类算法涉及两个基本问题—-性能度量和距离计算。∙\bullet 性能度量 聚类性能度量又称聚类“有效性指标”。聚类性能度量大致有两类。 “外部指标”:将聚类结果与某个“参考型”比较,常用的指标:Jaccard系数、FM指数、Rand指数 “内部
2018-01-15 13:41:28 576
原创 集成学习
通过构建并结合多个学习器来完成学习任务。“基学习器”(弱学习器,泛化性能高于随机猜想),目前大致分为两类:个体学习器间存在强依赖关系、必须串行生成的序列化方法;以及个体学习器之间不存在强依赖关系,可同时生成的并行化方法。前者的代表Boosting,后者的代表是Bagging和“随机森林”。Boosting Boosting是一族可将弱学习器提升为强学习器的算法,工作机制类似:从初始训练集
2018-01-12 19:06:15 499
原创 贝叶斯分类器
1.贝叶斯决策论 贝叶斯决策论是概率框架下实施决策的基本方法。设有N种可能的类别标记,即Y=c1,c2,...,cNY=c_1,c_2,...,c_N,λijλ_ij是将一个真实标记为cjc_j标记成为cic_i产生的损失.则基于后验概率P(ci|x)P(c_i|x)可获得将样本x分类为ci所产生的期望损失(也称条件风险)为: R(ci|x)=∑j=1NλijP(cj|x)(1.1)R(c_
2018-01-05 13:57:18 428
原创 决策树
决策树信息增益 ID3,“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合DD中第kk类样本所占的比例为pk(k=1,2,3,|y|)p_k(k=1,2,3,|y|),则DD的信息熵定义为Ent(D)=−∑k=1|y|pklog2pkEnt(D)=-\sum_{k=1}^{|y|}p_klog_2p_kEnt(D)Ent(D)的值越小,则DD的纯度越高。 假定离散属性a有V个可能的取
2017-11-08 19:36:29 451
原创 梯度下降
梯度下降 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。其意义从几何意义上讲,就是函数变化增加最快的地方。具体来说,对于函数f(x,y),在点(x0,y0)(x_0,y_0),沿着梯度向量的方向就是(∂f/∂x0,∂f/∂y0)T(∂f/∂x0, ∂f/∂y0)^T的方向是f(x,y)增加最快的地方。或者说,沿着梯度向量的方向,更加容易找到函数的最
2017-10-27 21:01:26 257
原创 机器学习-模型评估与选择
模型评估与选择错误率:E=a/mE=a/m 训练误差|经验误差:学习器在训练集上的误差 泛化误差:学习器在新样本上的误差评估方法留出法 :将两个数据集DD划分成互斥的集合,其中一个作为训练集SS,另一个作为测试集TT。交叉验证法:将数据集DD划分成k个大小相似的互斥的数据集,每次用k-1个作为训练集,余下的作为测试集;这样获得k组结果,最终返回k组的测试结果的均值。(特别:数据集DD有m个样
2017-10-19 21:50:42 360
原创 RDD实现
解析器集成Scala解析器处理一般过程: 1 将用户输入每一行编译成一个类 2 将该类载入到JVM中 3 调用该类中的某个函数内存管理 1 未序列化Java对象存储在内存中 2 序列化的数据存于内存中 3 存于磁盘中 内存使用LRU(最近最少)回收算法管理RDD编程接口1 RDD分区(Partitions) 2 RDD首选位置(PreferredLocat
2017-10-19 20:44:17 2815
原创 Spark on Yarn解析
一:Hadoop Yarn解析 1,Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配,基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架,例如Spark、MapReduce、Storm等; 2,Yarn基本工作流程如下图所示: 注意: Container要向NodeManager汇报资源信息,Container
2016-12-05 23:12:13 658
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人