- 博客(6)
- 收藏
- 关注
原创 libsvm源码解析2
关于svm_train函数分析svm_train结构1 svm_model参考: http://doc.okbase.net/bentuwuying/archive/259870.html关于svm_train函数分析java使用svm_train时,有如下格式:public static void main(String[] args) thro...
2018-04-30 20:43:17 372
原创 libsvm源码解析
1. 引言2 代码分析2.1 svm_node代码分析2.2 svm_problem代码分析2.3 svm_parameter代码分析2.3 svm_model代码分析3 核心代码分析1 Cache2 Kernel3 Solver1. 引言libsvm函数包的组织结构图如下图所示。主文件路径中包含了核心的C/C++程序和例子数据,以及jav...
2018-04-27 22:15:16 2337
原创 《数据算法Hadoop/Spark》读书笔记4--topN
本章待完善。 有问题待解答。broadcast()共享全局变量,实验证明,无论是本地还是集群模式,全局变量也是可以的,为什么还要广播呢? broadcast() 本测试提交脚本cd $SPARK_HOME#top10./bin/spark-submit --class cn.whbing.spark.dataalgorithms.chap02.Top...
2018-04-20 22:01:32 202
原创 《数据算法Hadoop/Spark》读书笔记3--Top10
1 说明本章知识1 唯一key单分区和多分区测试2 分区汇总 :最终top102.1 汇总方案1:collect到集合2.1 汇总方案2:reduce到集合 若返回要求为JavaPairRDD<K,V>,Tuple2<K,V>即可1 说明本实验测试spark实现top10。思路:先对数据进行mapPartitions...
2018-04-19 22:13:21 347
原创 《数据算法Hadoop/Spark》读书笔记2--map与flatMap、mapPartitions对比
本章知识1 map与flatMap对比2 map与mapPartitions对比3 实验3.1 map3.2 flatMap3.3 mapPartitions4 附录本章知识 spark中的共同点为Iterable中的每一项均为RDD map 一RDD对一RDD flatMap 输出为可迭代,一行可迭代成多个数据,...
2018-04-19 16:25:33 705
原创 《数据算法Hadoop/Spark》读书笔记1--二次排序
1 说明本章知识1.1 Chapter 01: Secondary Sorting With Spark1.1.1 新建maven工程1.1.2 编辑输入文件1.1.3 二次排序1.1.4 运行结果1.1.5 小结1 说明本文档介绍Spark的二次排序解决方案。本章知识 方法 返回类型/描述 textFile ...
2018-04-16 16:27:28 543
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人