spark学习
l_ibrary
这个作者很懒,什么都没留下…
展开
-
pyspark运行报错
```pythonfrom pyspark import SparkConf, SparkContextconf=SparkConf().setMaster("local").setAppName("My App")sc=SparkContext(conf=conf)logFile="file:///usr/local/spark/README.md"logData=sc.textFile(logFile,2).cache()numAs=logData.filter(lambda line: .原创 2020-06-08 12:02:25 · 2334 阅读 · 1 评论 -
MAC 下安装hadoop
官网下载hadoop: http://hadoop.apache.org/releases.html文件下载后解压,将文件放入 /usr/local目录下伪分布式模式设置:进入目录: hadoop-3.2.1/etc/hadoop在hadoop-env.sh文件中增加JAVA路径设置:export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_211.jdk/Contents/Home打开core-site.xml文件,fs.d.转载 2020-06-08 10:29:21 · 428 阅读 · 0 评论 -
使用spark shell 编写第一个代码
spark初学启动 spark shell : spark-shell .启动之后会自动创建sc的spark context对象加载text文件: spark创建sc,可以加载本地文件和HDFS文件创建RDD.val textFile = sc.textFile(“file:///usr/local/spark/README.md”) (加载本地文件)//获取文件textFile的第一行的内容textFile.first()//获取RDD文件textFile所有项的计数textFile.原创 2020-06-07 17:22:49 · 376 阅读 · 0 评论