2016年04月_Arrow

原创 SVM学习总结

1. 目标 SVM是一个二类分类器，它的目标是找到一个超平面，使用两类数据离超平面越远越好，从而对新的数据分类更准确，即此分类器更加健壮。支持向量（Support Vetor）：就是离分隔超平面最近的哪些点。寻找最大间隔：就是寻找最大化支持向量到分隔超平面的距离，在此条件下求出分隔超平面。数据分类类别： 1）线性可分 2

2016-04-27 16:29:44 23772 4

原创深度学习--学习总结

1. CNN(卷积神经网络)2. RNN(循环神经网络)3. DNN(深度神经网络)

2016-04-26 09:12:22 5054

原创大数据编程语言 R、Python、Scala 和 Java

1. R R被称为“统计人员为统计人员开发的一种语言”。2. Python Python在学术界一直很流行，尤其是在自然语言处理(NLP)领域。3. Scala Scala是比较轻松的语言，因为大家都欣赏其类型系统。Scala在JVM上运行，基本上成功地结合了函数范式和面向对象范式。4. JAVA JAVA在JVM上运行。在大数据领域，没人爱，

2016-04-26 08:59:52 2809

原创 Python的基本知识及sorted

1. 简介 sorted的派排序功能真强大，从前一直使用C++、Java以为其功能很强大了，但与Python一比，真的要差一些。2. 函数定义 sorted(iterable, cmp=None, key=None, reverse=False) 把iterable中的items进行排序之后，返回一个新的列表，原来的iterable没有任何改变

2016-04-20 13:52:21 13719 2

原创线性代数常用基本知识 (含向量和矩阵范数<Matrix or vector norm>)

1. 行列式1.1 二阶行列式1.2 三阶行列式

2016-04-19 11:07:56 19846 3

原创常用导数+积分公式

1. 导数基本公式2. 层数的四则运算法则3. 复合函数求导法则

2016-04-19 10:18:30 54626

原创 Deep Learning Frameworks.

1. DeepLearn Toolbox 此工具箱已经不再维护，建议使用深度学习更好的工具箱：Theano, Torch 或 Tensorflow。2. Theano3. Torch4. Tensorflow

2016-04-18 17:58:26 1013

原创 Deep Learning简介

1. 简介深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分．不同的学习框架下建立的学习模型很是不同．例如，卷积神经网络（

2016-04-18 08:30:48 4224

原创 Spark简介

1. 简介 Apache Spark是自由开源的分布式内存计算平台，目前已经成为 Apache 基金会的顶级项目。该平台可以快速、多计算范式、可靠地处理海量数据，除了基本批处理型外，还支持流计算、图计算、SQL分析和机器学习。

2016-04-15 08:48:20 946

原创 Matting学习

Matting论文摘记bayesian+matting算法的研究和改进digital learning based matting毕业论文

2016-04-07 18:03:03 1752 1

原创交互式查询

1. OLAP和OLTP的特点 OLAP (联机分析处理) 和 OLTP (联机事务处理) 在查询方面的特点： 1) OLTP 单次查询返回数据量小，但是经常会涉及服务器端简单的聚合操作，要求查询响应速度快，一般应用于在线处理； 2) OLAP 单次查询返回数据量巨大，服务器端进行的处理复杂，经常包含上卷(从细粒度数据向高层的聚合)、下钻(将汇总数据拆分到

2016-04-05 18:03:43 7952 1

原创大数据离线处理和常用工具

1. 大数据离线处理特点 1) 数据量巨大且保存时间长； 2) 在大量数据上进行复杂的批量运算； 3) 数据在计算之前已经完全到位，不会发生变化； 4) 能够方便的查询批量计算的结果；不像在线计算当前呈现的各种框架和架构，离线处理目前技术上已经成熟，大家使用的均是: 使用 Hdfs 存储数据，使用 MapReduce 做批量计算，计算完成的数据如需数

2016-04-05 17:46:03 9579 3

原创大数据在线分析处理和常用工具

1. Flume架构

2016-04-05 16:24:53 4441

原创 Ubuntu12.04 编译 Hadoop 2.6.4 源码

1) 安装JDK1.7 下载JDK 1.7.0_79并解压，然后在.bashrc中设置JAVA_HOME和PATH2) 安装Maven -下载解压，然后配置MAVEN_HOME和PATH -或apt-get install maven -mvn --version （验证）3) 安装依赖库 apt-get install g++ autoc

2016-04-01 15:42:08 1123

MyArrow的专栏