自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 最大似然估计方法

起因:我发现LR在知道样本概率分布后,要估计w的值,用到了极大似然估计方法,得到了所谓的损失函数。 所以想了解下 极大似然估计的原理。 最大似然估计方法,是基于总体分布已知情况下的一种参数估计方法。 其基于极大似然估计原理:概率大的事件易发生;在一次观测中发生了的事件,其概率应该大。 例子:你和猎人都去打猎,枪响了,兔子倒下了,你觉得这个兔子是被谁打死的? 你会觉得是猎人,因为他

2017-02-27 23:02:07 962

原创 支持向量机

背景知识: 我们拿到一个有标记的数据集后,会想,如果我能有个数学公式来预测lable就好了。 这个数学公式可能长这样:wTx。  接下来我们就想,我们预测的准确吗?于是我们想到了一些验证准确性的函数,或者换句话,预测结果与真实结果误差的函数,也就是损失函数。 我们可能会找到很完美的数学公式,让损失函数最小,但是这仅仅是训练集上的。。。可能在测试集或其他数据集上就会表现很差,这个现象就是过拟

2017-02-19 20:55:32 482

原创 最优化算法

http://spark.apache.org/docs/1.6.3/mllib-optimization.html Mathematical description Gradient descentStochastic gradient descent (SGD)Update schemes for distributed SGDLimited-memory BF

2017-02-19 20:36:15 375

原创 MLlib-基本统计计算

http://spark.apache.org/docs/1.6.3/mllib-statistics.html 总体概况: 类似R语言中的Summary。 import org.apache.spark.mllib.linalg.Vector import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary,

2017-02-18 11:21:59 324

原创 MLlib中的数据类型

http://spark.apache.org/docs/1.6.3/mllib-data-types.html Local Vector 有两种:dense、sparse For example, a vector (1.0, 0.0, 3.0) can be represented in dense format as [1.0, 0.0, 3.0] or in sparse f

2017-02-17 09:42:18 644

原创 Spark SQL, DataFrames and Datasets Guide

SQL:One use of Spark SQL is to execute SQL queries. Datasets and DataFrames: Datasets 是基于RDD的分布式数据容器。 而DataFrames则是有命名列名的Dataset。DataFrame的数据集都是按指定列存储,即结构化数据。类似于传统数据库中的表。 DataFrame的设计是为了让大数据处

2017-02-16 21:49:27 265

原创 scala的容器类

Seq的操作 特性(trait) Seq 具有两个子特征(subtrait) LinearSeq和IndexedSeq。它们不添加任何新的操作,但都提供不同的性能特点:线性序列具有高效的 head 和 tail 操作,而索引序列具有高效的apply, length, 和 (如果可变) update操作。 Buffers是可变序列一个重要的种类。ListBuffer和ArrayBuf

2017-02-16 20:37:49 1040

原创 scala快速开始

一、安装 (略) 二、Hello World > scala This is a Scala shell. Type in expressions to have them evaluated. Type :help for more information. scala> object HelloWorld { | def main(args: Array[Stri

2017-02-15 09:54:11 404

原创 我的scala学习之旅

有简单的java基础,学习spark的同时,需要用到scala,没有什么好的中文书籍,那么就直接看scala官网文档吧~ http://www.scala-lang.org/documentation/ 以下是我的已学习内容:

2017-02-15 09:21:28 145

原创 Spark的介绍

Spark 是快速的、hadoop数据的通用处理引擎;可以运行在hadoop的YARN集群上或者单机模式;可以处理任何格式的hadoop数据;为了批处理和新的流处理、机器学习而设计。 一、优点: 1、快速: 在内存中,spark可以比hadoop的MR快100多倍;在磁盘上,快10多倍。 2、易用性: Java, Scala, Python, R. 3、普适性: incl

2017-02-13 21:42:59 227

原创 我的SPARK学习之旅

这是一个总体的规划: 从这里http://spark.apache.org/ 开始。 1、大致了解Spark 2、学习MLlib 基于DataFrame的ML包,和基于RDD的MLlib包的选择(选后者,公司调试方便,后期可以试试前者)每个算法,研究算法的理论知识、调包实现、参数调节、注意事项、优劣点、Scala源码(重中之重) 3、疑问点、待学习的知识点的记录笔

2017-02-13 20:21:14 205

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除