自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (7)
  • 收藏
  • 关注

转载 EM算法

EM算法实例(一) 这是一个抛硬币的例子,H表示正面向上,T表示反面向上,参数θ表示正面朝上的概率。硬币有两个,A和B,硬币是有偏的。本次实验总共做了5组,每组随机选一个硬币,连续抛10次。如果知道每次抛的是哪个硬币,那么计算参数θ就非常简单了,如上图所示。 如果不知道每次抛的是哪个硬币呢?那么,我们就需要用EM算法,基本步骤为:1、给θA和θB一个初始值;2、(E-step)估计每组实验

2018-01-15 13:43:58 810

原创 聚类

聚类任务  聚类任务是无监督学习的一种,没有标记。聚类试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个“簇”。聚类算法涉及两个基本问题—-性能度量和距离计算。∙\bullet 性能度量   聚类性能度量又称聚类“有效性指标”。聚类性能度量大致有两类。   “外部指标”:将聚类结果与某个“参考型”比较,常用的指标:Jaccard系数、FM指数、Rand指数   “内部

2018-01-15 13:41:28 576

原创 集成学习

通过构建并结合多个学习器来完成学习任务。“基学习器”(弱学习器,泛化性能高于随机猜想),目前大致分为两类:个体学习器间存在强依赖关系、必须串行生成的序列化方法;以及个体学习器之间不存在强依赖关系,可同时生成的并行化方法。前者的代表Boosting,后者的代表是Bagging和“随机森林”。Boosting  Boosting是一族可将弱学习器提升为强学习器的算法,工作机制类似:从初始训练集

2018-01-12 19:06:15 499

原创 贝叶斯分类器

1.贝叶斯决策论  贝叶斯决策论是概率框架下实施决策的基本方法。设有N种可能的类别标记,即Y=c1,c2,...,cNY=c_1,c_2,...,c_N,λijλ_ij是将一个真实标记为cjc_j标记成为cic_i产生的损失.则基于后验概率P(ci|x)P(c_i|x)可获得将样本x分类为ci所产生的期望损失(也称条件风险)为: R(ci|x)=∑j=1NλijP(cj|x)(1.1)R(c_

2018-01-05 13:57:18 428

转载 支持向量机(二)

核函数

2017-11-28 20:59:20 253

原创 支持向量机(一)

支持向量机

2017-11-28 20:56:37 425

原创 决策树

决策树信息增益  ID3,“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合DD中第kk类样本所占的比例为pk(k=1,2,3,|y|)p_k(k=1,2,3,|y|),则DD的信息熵定义为Ent(D)=−∑k=1|y|pklog2pkEnt(D)=-\sum_{k=1}^{|y|}p_klog_2p_kEnt(D)Ent(D)的值越小,则DD的纯度越高。 假定离散属性a有V个可能的取

2017-11-08 19:36:29 451

原创 sublime text3 插件

sublime text3常用插件

2017-11-01 12:13:32 420

原创 多分类学习、类别不平衡

多分类学习、类别不平衡

2017-10-27 21:11:09 5015

原创 LDA PCA

线性判别式、主成分分析

2017-10-27 21:08:24 382

原创 梯度下降

梯度下降  在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。其意义从几何意义上讲,就是函数变化增加最快的地方。具体来说,对于函数f(x,y),在点(x0,y0)(x_0,y_0),沿着梯度向量的方向就是(∂f/∂x0,∂f/∂y0)T(∂f/∂x0, ∂f/∂y0)^T的方向是f(x,y)增加最快的地方。或者说,沿着梯度向量的方向,更加容易找到函数的最

2017-10-27 21:01:26 257

转载 Ridge回归、Lasso回归、坐标下降法、最小角回归

Ridge回归、Lasso回归、坐标下降法、最小角回归

2017-10-27 20:59:40 7707

原创 线性回归、最小二乘法、对数几率回归

线性回归、最小二乘法

2017-10-27 20:53:32 2531

原创 Spark core

Spark Core机制、作业执行、算法调度、容错、监控

2017-10-23 16:21:44 383

原创 机器学习-模型评估与选择

模型评估与选择错误率:E=a/mE=a/m 训练误差|经验误差:学习器在训练集上的误差 泛化误差:学习器在新样本上的误差评估方法留出法 :将两个数据集DD划分成互斥的集合,其中一个作为训练集SS,另一个作为测试集TT。交叉验证法:将数据集DD划分成k个大小相似的互斥的数据集,每次用k-1个作为训练集,余下的作为测试集;这样获得k组结果,最终返回k组的测试结果的均值。(特别:数据集DD有m个样

2017-10-19 21:50:42 360

原创 RDD实现

解析器集成Scala解析器处理一般过程: 1 将用户输入每一行编译成一个类 2 将该类载入到JVM中 3 调用该类中的某个函数内存管理 1 未序列化Java对象存储在内存中 2 序列化的数据存于内存中 3 存于磁盘中 内存使用LRU(最近最少)回收算法管理RDD编程接口1 RDD分区(Partitions) 2 RDD首选位置(PreferredLocat

2017-10-19 20:44:17 2815

转载 treeAggregate、treeReduce

treeAggregate、treeReduce

2017-03-01 15:59:24 1385

原创 Hive安装

Hive安装

2017-02-20 20:53:33 372

转载 Ubuntu下安装MySQL及简单操作

Ubuntu下安装MySQL及简单操作

2017-02-19 12:21:18 274

原创 Spark性能优化之一

Spark性能优化

2017-01-02 20:28:04 396

转载 Spark计算过程分析

Spark计算过程分析

2016-12-11 21:40:50 738

原创 SparkContext

SparkContext

2016-12-05 23:14:15 1246

原创 Spark on Yarn解析

一:Hadoop Yarn解析 1,Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配,基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架,例如Spark、MapReduce、Storm等; 2,Yarn基本工作流程如下图所示: 注意: Container要向NodeManager汇报资源信息,Container

2016-12-05 23:12:13 658

转载 K-means聚类算法初探

K-means聚类算法

2016-12-04 21:41:19 588

原创 Spark-Runtime

Spark-Runtime

2016-12-04 17:06:02 272

原创 spark Shuffle内幕

Spark Shuffle

2016-12-03 20:56:41 877

原创 从物理执行的角度透视spark Job

从物理执行的角度透视spark Job

2016-12-02 15:07:06 417

原创 RDD的依赖关系彻底解密

RDD依赖关系

2016-12-01 21:51:37 2969

原创 从Spark架构中透视Job

从Spark架构中透视Job

2016-11-30 18:02:30 323

转载 水塘抽样

水塘抽样

2016-11-29 20:37:38 675

原创 TopN算法

TopN算法

2016-11-29 20:31:57 2109

原创 Spark高级排序

Spark 高级排序

2016-11-26 22:14:25 496

原创 RDD实战

RDD操作

2016-11-23 22:08:23 568

原创 RDD内幕解密

MapReduce RDD

2016-11-23 21:52:16 358

原创 Spark内核解密

Spark内核解密

2016-11-16 17:55:16 361

原创 WordCount原理解析

WordCount 原理

2016-11-14 19:34:06 874

原创 IEDA下开发Spark

IDEA Spark

2016-11-12 20:27:23 450

原创 Spark

Spark

2016-11-12 15:16:25 256

原创 Spark集群的搭建:

Spark集群

2016-11-11 20:12:43 297

转载 Ubuntu16.04 root

Ubuntu16.04 root

2016-11-07 22:13:57 324

d3 带缩放的折线

d3.js可视化工具 折线图可以鼠标滚动缩放 横坐标为时间

2018-01-04

zipf随机数生成

随机数生成程序,该随机数呈zipf分布,就是大家常说对于内容的访问遵循80/20原则,也就是20 的内容,会占有80 的访问量

2017-10-09

对pdf文件内容入取

Scala对pdf文件内容读取

2016-12-02

坦克大战 java GUI

坦克大战

2016-10-07

基于c++万年历

小程序,可用,从1900年记起,之前的年份无法计算,没有使用计算公式.

2013-11-12

基于STM32的ISD1700控制

能够放音,测试通过.供大家参考

2013-07-26

电子设计自动化 Veriolg

电子设计自动化 Veriolg代码 期末复习试卷 杭州电子科技大学

2013-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除