spark学习笔记
Richard_More
学习笔记(金融+计算机)
展开
-
如何基于Spark做深度学习:从Mllib到keras,elephas
Spark ML model pipelines on Distributed Deep Neural NetsThis notebook describes how to build machine learning pipelines with Spark ML for distributed versions of Keras deep learning models. As data set转载 2016-11-18 12:58:24 · 5145 阅读 · 0 评论 -
解析Spark开源框架elephas之一
写在前面的话elephas是一个把python深度学习框架keras衔接到Spark集群的第三方python包。由于这个版本并不稳定,并且没有什么资料,我打算剖析其源代码。分析代码要从其主程序开始,就是spark_model.py,其网址在 https://github.com/maxpumperla/elephas/blob/master/elephas/spark_model.原创 2016-11-19 23:14:30 · 4126 阅读 · 16 评论 -
解析Spark开源框架elephas之二
run一个elephas例子下面基于Spark,本地运行一个例子,这个代码可以在http://download.csdn.net/detail/richard_more/9691563 这里下载。spark-submit --master local[3] mnist_mlp_spark_CC.py 我的部分结果见下图:16/11/23 20:28:05 INF原创 2016-11-23 20:55:54 · 2195 阅读 · 0 评论 -
SparkSql寻医问药问答分析第二次分析
1. 爬虫和数据导入miaofu@master:~/healthQA$ ls -l -h总用量 3.7G-rw-r--r-- 1 miaofu miaofu 80M 9月 24 13:22 2016-05-01content.txt-rw-r--r-- 1 miaofu miaofu 90M 9月 24 13:22 2016-05-02content.txt-rw-r-原创 2016-09-24 16:47:58 · 1275 阅读 · 0 评论 -
SparkSQL-DataFrame学习笔记
(1)导语昨天在处理寻医问药网的记录时,遇到了处理非关系型的数据库,非关系数据以前都是mongodb来处理的,但它(a)不能分布式。所以处理的数据能力有上限(b)不能很好衔接外源程序,要是对其数据进行处理。必须下载一个第三方的包,来回对读,写其数据。非常不方便。下面我们来看看SparkSQL DataFrame这种数据库的优缺点。(2)分析材料网上关于DataFrame介绍的资源也只有原创 2016-09-20 10:58:03 · 1722 阅读 · 0 评论 -
基于Spark分析寻医问药网的问答数据
scala> val in = sqlContext.jsonFile("hdfs:///user/miaofu/healthcare/2016-05-01/content.txt")warning: there were 1 deprecation warning(s); re-run with -deprecation for details16/09/19 15:05:17 INFO B原创 2016-09-19 15:43:34 · 2857 阅读 · 1 评论 -
spark学习笔记-spark上做kaggle的机器学习分类任务
1. 下载数据,并写入hdfs中miaofu@master:~$ hadoop fs -ls /user/miaofu/covtype-rw-r--r-- 2 miaofu supergroup 75169317 2016-09-17 23:20 /user/miaofu/covtype2. 启动spark集群miaofu@master:~/spark-1.6.2-bin-h原创 2016-09-19 14:16:34 · 2113 阅读 · 0 评论 -
Spark学习笔记-推荐系统(协同过滤算法为用户推荐播放歌手)
这是Spark高级数据分析的第二个项目,基于用户,歌手,播放次数的简单数据记录,来为用户推荐歌手。(1)获取数据miaofu@miaofu-Virtual-Machine:~/user_artist_data$ wget http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz--2016-原创 2016-09-12 17:14:35 · 4430 阅读 · 4 评论 -
Spark学习-数据关联问题
这篇文章主要记录spark高级数据分析书中,关于记录关联问题的代码的剖析。其全部代码如下:miaofudeMacBook-Pro:code miaofu$ git clone https://github.com/sryza/aas.gitCloning into 'aas'...remote: Counting objects: 2490, done.remote: Compr原创 2016-09-12 13:28:06 · 2592 阅读 · 0 评论 -
评估深度学习架构在Spark集群的应用:从theano,keras到elephas
最终目标最终目标:为了提高机器学习特别是深度学习的计算速度。提供的速度有三个方法:让算法的变得更加聪明(数据结构);让单个机器的计算能力增强(更好的CPU/GPU);让计算并行化(多线程;Hadoop/Spark)。本文仅仅探索第三种方式:评估不同的深度学习框架(是否支持GPU,易于实现,速度快)以及其如何并行化于分布式的集群之上。theano是一个python的包,用数组向量来定义和计算原创 2016-11-18 12:33:23 · 4736 阅读 · 0 评论