![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
weixin_41366941
这个作者很懒,什么都没留下…
展开
-
YARN/Mesos调研
博文1:Apache YARN/Mesos与Google Borg差距多远?http://dongxicheng.org/mapreduce-nextgen/yarn-mesos-borg/ 16月 08 .15年目前看来,Mesos/YARN的架构和设计上,与Google Borg仍有一定的差距,但需要注意的是,很多细节之处,都是tradeoff的结果,很难说哪种机制更适合我们的场景...原创 2018-10-24 14:14:46 · 618 阅读 · 0 评论 -
datasSet学习
1、dataset官方定义:A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel using functional or relational operations.Each Dataset also has an untyped vie...原创 2018-08-28 16:51:24 · 204 阅读 · 0 评论 -
基于Hadoop与Spark大数据平台的个性化图书推荐系统搭建学习总结
前言:这两个月来一直在接手实验室师兄的一个图书推荐项目,期间从读懂其用pyspark代码到将其代码修改成pyspark、scala代码在spark大数据平台上运行实现相应的功能对于我这样一个无人指点的小白可谓是历经了一凡坎坷,现在做记录如下。一、spark分布式平台运到的坑用spark-submit提交pyspark代码没有按预期运行分布式模式 分布式平台(hadoop+spark)...原创 2018-08-19 15:15:04 · 10294 阅读 · 4 评论 -
hadoop UI+spark UI
如何进入UI :https://blog.csdn.net/hua_jing/article/details/78433790如何调用spark UI:https://blog.csdn.net/u013013024/article/details/73498508转载 2018-07-20 09:45:16 · 441 阅读 · 0 评论 -
Hadoop2.7.5 Spark2.3.0 Anaconda2-5.1.0分布式集群搭建
这几天因为学习需要搭建了一个由3个节点组成的hadoop和spark分布式集群,做记录如下(已生成目录,可按需查看)。集群搭建环境及安装软件版本centos6 jdk1.8.0_161 hadoop2.7.5 Spark2.3.0 Scala-2.11.8 Anaconda2-5.1.0 IDEA-2018.1搭建分布式集群的几个主要步骤:下载好搭建分布式集群的软件 修...原创 2018-06-10 11:05:01 · 1623 阅读 · 0 评论 -
python插入第三方库wordcloud(词云)的步骤和出现的问题
在利用python做数据分析时,我们常常会用到词语wordcloud这一第三方库来对数据进行可视化分析。下面我便来记录一下自己在导入词语这一库时的步骤及遇到的问题。 由于在pycharm开发环境下直接搜索wordcloud时显示“Nothing to show ”,便采取网上的建议手动下载好wordcloud这一库包后在cmd窗口进行pip指令安装。词云库包的下载地址为:https://w...原创 2018-05-29 19:40:48 · 16286 阅读 · 3 评论 -
scala中的foldLeft学习
闲来无事,在stackoverflow上看代码玩,偶尔发现一个之前没有用过的函数--foldLeft函数。现做记录如下:val sourceDF = Seq( (" p a b l o", "Paraguay"), ("Neymar", "B r asil")).toDF("name", "country")val actualDF = Seq( &qu原创 2019-02-26 21:40:16 · 1161 阅读 · 0 评论