spark高级数据分析系列之第三章音乐推荐和 Audioscrobbler 数据集

3.1数据集和整体思路数据集本章实现的是歌曲推荐,使用的是ALS算法,ALS是spark.mllib中唯一的推荐算法,因为只有ALS算法可以进行并行运算。使用数据集在这里,里面包含该三个文件:表一:user_artist_data.txt   包含该的是(用户ID、歌曲ID、用户听的次数)  表二...

2017-07-14 08:47:21

阅读数 1422

评论数 0

spark高级数据分析系列之第二章用 Scala 和 Spark 进行数据分析

2.1数据科学家的Scala spark是用scala语言编写的,使用scala语言进行大数据开发的好处有 1、性能开销小 减少不同环境下传递代码和数据的错误和性能开销 2、能用上最新的版本和最好的功能 Spark的新功能毫无疑问是首先适配scala语言,但使用spark的所有功...

2017-07-12 16:40:24

阅读数 1867

评论数 0

[转]deepin系统添加开机运行命令、软件自启动方法

https://wiki.deepin.org/wiki/%E8%87%AA%E5%90%AF%E5%8A%A8%E7%A8%8B%E5%BA%8F#.E4.BD.BF.E7.94.A8systemd.E6.89.A7.E8.A1.8Crc.local     #!/bin/bash #rc...

2018-11-11 09:52:46

阅读数 1348

评论数 0

spark submit参数及调试

原文:http://www.cnblogs.com/haoyy/p/6893943.htmlspark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \  --class...

2018-03-15 13:27:33

阅读数 754

评论数 0

Spark快速大数据分析系列值第六章Spark编程进阶

共享变量 累加器广播变量 累加器 提供了将工作节点中的值聚合到驱动器程序中的简单语法 例子:计算空行数 val sc = new SparkContext(...) val file = sc.textFile("file.txt") val blankLines...

2017-07-15 16:14:55

阅读数 433

评论数 0

Spark快速大数据分析系列之第四章键值对操作

动机 键值对形式的RDD提供了新的强大的操作接口键值对形式的RDD具有一个重要特性:分区。一些情况下可以显著提升性能 创建Pair RDD 读取外部数据时:如果外部数据本身是键值对形式的,读取回来的RDD也是键值对形式个普通的 RDD 转为 pair RDD 时,可以使用map()函数val ...

2017-07-15 10:58:36

阅读数 334

评论数 0

Spark快速大数据分析之第三章RDD编程

RDD基础 RDD包含两种操作: 转化操作:由一个 RDD 生成一个新的 RDD,采取惰性求值策略:不会马上进行运算,直到下一个行动操作才会运算 行动操作:对 RDD 计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统(如 HDFS)中 惰性求值 虽然你可...

2017-07-15 09:05:49

阅读数 217

评论数 0

Spark运行架构

原文网址:http://www.cnblogs.com/shishanyuan/p/4721326.html1.术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代...

2017-07-14 16:30:23

阅读数 144

评论数 0

Spark快速大数据分析之第二章Spark 下载与入门

2.1Spark下载与安装 JDK的安装 JDK的版本最好是1.8以上,使用的是ubuntu系统 安装源         sudo add-apt-repository ppa:webupd8team/java sudo apt-get update 安装jdk s...

2017-07-14 15:05:58

阅读数 435

评论数 0

第一个kaggle项目Digit Recognizer

为了这个寒假没那么颓废,也为考研的面试积累一点资本,所以在kaggle上面参加一下比赛来提高自己的水平。kaggle的注册一直验证不了,后来用yahoo的邮箱就ok了。第一个项目是一个练习项目:Digit Recognizer。主要是数字识别。我使用了scikit-learn,所以程序就很简单。 ...

2016-01-21 13:34:00

阅读数 346

评论数 0

Python安装其它库的步骤和问题解决方案汇总

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富...

2016-01-20 12:47:58

阅读数 216

评论数 0

python更改或者查看当前工作目录

网上已经有很多人发了,我只是为了自己以后使用方便,所以从新再写一遍。 更改当前工作目录: 使用的事os库,例如更改到桌面,直接使用import os os.chdir(r"C:\Users\admin\Desktop") 查看当前工作目录: os.getcwd()

2016-01-19 21:24:20

阅读数 1204

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭