2017年02月_你看起来很好吃

原创最大似然估计方法

起因：我发现LR在知道样本概率分布后，要估计w的值，用到了极大似然估计方法，得到了所谓的损失函数。所以想了解下极大似然估计的原理。最大似然估计方法，是基于总体分布已知情况下的一种参数估计方法。其基于极大似然估计原理：概率大的事件易发生；在一次观测中发生了的事件，其概率应该大。例子：你和猎人都去打猎，枪响了，兔子倒下了，你觉得这个兔子是被谁打死的？你会觉得是猎人，因为他

2017-02-27 23:02:07 962

原创支持向量机

背景知识：我们拿到一个有标记的数据集后，会想，如果我能有个数学公式来预测lable就好了。这个数学公式可能长这样：wTx。接下来我们就想，我们预测的准确吗？于是我们想到了一些验证准确性的函数，或者换句话，预测结果与真实结果误差的函数，也就是损失函数。我们可能会找到很完美的数学公式，让损失函数最小，但是这仅仅是训练集上的。。。可能在测试集或其他数据集上就会表现很差，这个现象就是过拟

2017-02-19 20:55:32 482

原创最优化算法

http://spark.apache.org/docs/1.6.3/mllib-optimization.html Mathematical description Gradient descentStochastic gradient descent (SGD)Update schemes for distributed SGDLimited-memory BF

2017-02-19 20:36:15 375

原创 MLlib－基本统计计算

http://spark.apache.org/docs/1.6.3/mllib-statistics.html 总体概况：类似R语言中的Summary。 import org.apache.spark.mllib.linalg.Vector import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary,

2017-02-18 11:21:59 324

原创 MLlib中的数据类型

http://spark.apache.org/docs/1.6.3/mllib-data-types.html Local Vector 有两种：dense、sparse For example, a vector (1.0, 0.0, 3.0) can be represented in dense format as [1.0, 0.0, 3.0] or in sparse f

2017-02-17 09:42:18 644

原创 Spark SQL, DataFrames and Datasets Guide

SQL：One use of Spark SQL is to execute SQL queries. Datasets and DataFrames: Datasets 是基于RDD的分布式数据容器。而DataFrames则是有命名列名的Dataset。DataFrame的数据集都是按指定列存储，即结构化数据。类似于传统数据库中的表。 DataFrame的设计是为了让大数据处

2017-02-16 21:49:27 265

原创 scala的容器类

Seq的操作特性（trait) Seq 具有两个子特征（subtrait） LinearSeq和IndexedSeq。它们不添加任何新的操作，但都提供不同的性能特点：线性序列具有高效的 head 和 tail 操作，而索引序列具有高效的apply, length, 和 (如果可变) update操作。 Buffers是可变序列一个重要的种类。ListBuffer和ArrayBuf

2017-02-16 20:37:49 1040

原创 scala快速开始

一、安装（略）二、Hello World > scala This is a Scala shell. Type in expressions to have them evaluated. Type :help for more information. scala> object HelloWorld { | def main(args: Array[Stri

2017-02-15 09:54:11 404

原创我的scala学习之旅

有简单的java基础，学习spark的同时，需要用到scala，没有什么好的中文书籍，那么就直接看scala官网文档吧～ http://www.scala-lang.org/documentation/ 以下是我的已学习内容：

2017-02-15 09:21:28 145

原创 Spark的介绍

Spark 是快速的、hadoop数据的通用处理引擎；可以运行在hadoop的YARN集群上或者单机模式；可以处理任何格式的hadoop数据；为了批处理和新的流处理、机器学习而设计。一、优点： 1、快速：在内存中，spark可以比hadoop的MR快100多倍；在磁盘上，快10多倍。 2、易用性： Java, Scala, Python, R. 3、普适性： incl

2017-02-13 21:42:59 227

原创我的SPARK学习之旅

这是一个总体的规划：从这里http://spark.apache.org/ 开始。 1、大致了解Spark 2、学习MLlib 基于DataFrame的ML包，和基于RDD的MLlib包的选择（选后者，公司调试方便，后期可以试试前者）每个算法，研究算法的理论知识、调包实现、参数调节、注意事项、优劣点、Scala源码（重中之重） 3、疑问点、待学习的知识点的记录笔

2017-02-13 20:21:14 205

u010745111的专栏