2018年04月_王小禾

12月 11月 10月 08月 07月 06月 05月 04月 01月

原创 libsvm源码解析2

关于svm_train函数分析svm_train结构1 svm_model参考： http://doc.okbase.net/bentuwuying/archive/259870.html关于svm_train函数分析java使用svm_train时，有如下格式：public static void main(String[] args) thro...

2018-04-30 20:43:17 372

原创 libsvm源码解析

1. 引言2 代码分析2.1 svm_node代码分析2.2 svm_problem代码分析2.3 svm_parameter代码分析2.3 svm_model代码分析3 核心代码分析1 Cache2 Kernel3 Solver1. 引言libsvm函数包的组织结构图如下图所示。主文件路径中包含了核心的C/C++程序和例子数据，以及jav...

2018-04-27 22:15:16 2337

原创《数据算法Hadoop/Spark》读书笔记4--topN

本章待完善。有问题待解答。broadcast()共享全局变量，实验证明，无论是本地还是集群模式，全局变量也是可以的，为什么还要广播呢？ broadcast() 本测试提交脚本cd $SPARK_HOME#top10./bin/spark-submit --class cn.whbing.spark.dataalgorithms.chap02.Top...

2018-04-20 22:01:32 202

原创《数据算法Hadoop/Spark》读书笔记3--Top10

1 说明本章知识1 唯一key单分区和多分区测试2 分区汇总：最终top102.1 汇总方案1：collect到集合2.1 汇总方案2：reduce到集合若返回要求为JavaPairRDD<K,V>，Tuple2<K,V>即可1 说明本实验测试spark实现top10。思路：先对数据进行mapPartitions...

2018-04-19 22:13:21 347

原创《数据算法Hadoop/Spark》读书笔记2--map与flatMap、mapPartitions对比

本章知识1 map与flatMap对比2 map与mapPartitions对比3 实验3.1 map3.2 flatMap3.3 mapPartitions4 附录本章知识 spark中的共同点为Iterable中的每一项均为RDD map 一RDD对一RDD flatMap 输出为可迭代，一行可迭代成多个数据，...

2018-04-19 16:25:33 705

原创《数据算法Hadoop/Spark》读书笔记1--二次排序

1 说明本章知识1.1 Chapter 01: Secondary Sorting With Spark1.1.1 新建maven工程1.1.2 编辑输入文件1.1.3 二次排序1.1.4 运行结果1.1.5 小结1 说明本文档介绍Spark的二次排序解决方案。本章知识方法返回类型/描述 textFile ...

2018-04-16 16:27:28 543

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 libsvm源码解析2

原创 libsvm源码解析

原创 《数据算法Hadoop/Spark》读书笔记4--topN

原创 《数据算法Hadoop/Spark》读书笔记3--Top10

原创 《数据算法Hadoop/Spark》读书笔记2--map与flatMap、mapPartitions对比

原创 《数据算法Hadoop/Spark》读书笔记1--二次排序

空空如也

空空如也

原创《数据算法Hadoop/Spark》读书笔记4--topN

原创《数据算法Hadoop/Spark》读书笔记3--Top10

原创《数据算法Hadoop/Spark》读书笔记2--map与flatMap、mapPartitions对比

原创《数据算法Hadoop/Spark》读书笔记1--二次排序