2019-1---大数据学习
_maybewecan
这个作者很懒,什么都没留下…
展开
-
spark学习--grouByKey 和 reduceByKey区别及reduceByKey特点在spark调优中的利用
Spark学习---GrouByKey和reduceByKey的区别,以及reduceByKey特点在spark优化中的使用先来一个例子:需求:读取学生信息表到SparkContext后,分别使用GroupByKey,reduceByKey统计各班的人数代码和结果如下:获取SparkContext:使用groupByKey---结果和代码放到一起截图的:reduce...原创 2019-01-11 18:55:19 · 401 阅读 · 0 评论 -
hadoop fs -options 和 hdfs dfs -options的区别
一直使用hadoop fs 突然发现有些人用dfs,虽然我知道,但是具体什么区别不是很清楚,于是花时间查了一下:1.hadoop fs -options 该命令可以用于其他文件系统,不止是hdfs文件系统内,指当前hadoop使用的那个文件系统,说该命令的使用范围大2.hdfs dfs -optionshdfs系统专属的3.hadoop dfs -options这个不用...原创 2019-01-07 00:11:18 · 393 阅读 · 0 评论 -
spark学习过程中--序列化问题---目前只遇到这么多,待更ing
问题很多,但是慢慢理解,慢慢解决。。今天学习spark优化,过程中学习了Kryo优化---是我更深的理解了序列化的作用,做个笔记先:之前学习的java的序列化,是通过关键字Serialization实现的[Serialization is the process of turning structured objects into a byte stream--序列化就是一个将结构对象转换...原创 2019-01-11 19:51:51 · 255 阅读 · 0 评论 -
algs4.jar----算法第四版书本官方jar包下载
想看之前写的算法例子,发现依赖jar包没了,重新下载,发现好多人把这放到CSDN要积分下载,有点竟然要45个积分,真是醉了。。官方就有免费下载:地址在这:https://algs4.cs.princeton.edu/code/...原创 2019-01-12 02:24:22 · 3306 阅读 · 7 评论 -
spark on yarn
Spark on yarn的 两种运行模式和运行原理一 回顾—spark和mapreduce区别在MapReduce中,计算的最上层单元是是job,系统加载数据,执行一个map函数,shuffle数据,执行一个reduce函数,然后将数据写回到持久化存储器,Spark有一个类似job的概念(虽然一个job可以由多个stage组成,而不是仅仅只包含map和reduce),不过Spark还有一...原创 2019-01-08 19:54:22 · 299 阅读 · 2 评论 -
scala获取当前系统时间的两种方式
有问题要解决,逃避不是办法import java.text.SimpleDateFormatimport java.util.Dateval df = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")1.df.format(new Date())2.df.format(System.currentTimeMillis())...原创 2019-01-21 19:55:00 · 5106 阅读 · 0 评论