spark
多串君_Kwane
“我们的信仰是大数据,我们的信仰是拟合,我们信仰是AI与人类交互本身是一个黑盒子。”
展开
-
spark高级数据分析-scala学习(学习笔记)
1.进入sparkcmd后输入 “spark-shell” 进行scala版的sparklog4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system prop翻译 2017-04-07 23:53:56 · 2825 阅读 · 0 评论 -
spark高级数据分析-推荐系统(学习笔记)
1.数据准备数据集地址 http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html 主要的数据集在文件user_artist_data.txt 中,它包含141 000 个用户和160 万个艺术家,记录了约2420 万条用户播放艺术家歌曲的信息,其中包括播放次数信息。数据集在artist_data.txt 文件中给出了每翻译 2017-04-10 15:15:57 · 1368 阅读 · 0 评论 -
Spark (Python版) 学习笔记(一)
import sysfrom operator import addfrom pyspark import SparkContextif __name__ == "__main__": #打开README.md文件 sc = SparkContext(appName="PythonWordCount") textFile = sc.textFile('README.md')原创 2017-04-05 13:06:54 · 676 阅读 · 0 评论 -
Spark (Python版) 学习笔记(二)
import sysfrom operator import addfrom pyspark import SparkContextsc = SparkContext(appName="PythonWordCount")#1. map(func) 将func函数作用到数据集的每个元素,生成一个新的分布式的数据集并返回a = sc.parallelize(('a', 'b', 'c'))prin原创 2017-04-05 14:29:57 · 450 阅读 · 0 评论 -
Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令
http://www.cnblogs.com/charlotte77/p/5412709.html转载 2017-04-06 14:43:41 · 722 阅读 · 0 评论