spark
文章平均质量分 96
joshuwang0810
这个作者很懒,什么都没留下…
展开
-
当我们谈spark的时候我们在关注什么
虽然能够用scala磕磕绊绊写spark了,但跟大数据相关的一些繁琐的名词及其材料仍让人看的云里雾里的,时至今日中午仍旧在这部分晕晕乎乎,下午突然想通了一个点,再看了下以前浏览的资料,顿有茅塞顿开之感。为此review了林子雨老师的教程,并记录下一些自认为重要的点。茅塞顿开的点想通的点是大数据面临的问题主要有两个:如何存储,如何使用。基于这个基础理念,再看了下以下材料进行验证:林子雨老师教程中的第一章。第一遍看林老师教程的时候非常懵逼,甚至看不下去,这次再看颇有种跟林老师一拍即合的感觉,ppt做的真原创 2021-03-14 14:48:25 · 638 阅读 · 0 评论 -
spark上的一些问题
之前不记录碰到的问题,解决的思路,导致之后再次碰到又在查查查…————————————————————————————————————表象:spark-shell太卡了,在进去之后报java内存不够的问题原因: 开了太多spark-shell,又异常关闭解决:pgrep javapkill java————————————————————————————————————表象:插入...原创 2019-07-02 10:06:17 · 342 阅读 · 0 评论 -
《大数据处理技术Spark》--林子雨
hadoop伪分布实例伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录:hdfs dfs -mkdir -p /user/hadoop # 已经将hadoop中的bin加入到环境变量中将本地的word.txt复制到分布式文件系统的/user/hadoop/input中hdfs dfs -mkdir input # 因为现在使用的是hadoo...原创 2019-06-29 22:47:26 · 3447 阅读 · 0 评论