2018年04月_beTree_fc

10月 09月 08月 07月 06月 05月 04月 03月

原创 spark - 性能优化小keys

1.Spark现在主推的是dataset的api，越来越多的算子可以基于dataset去做，dataset基于天然自带的优化引擎，但是dataset操控能力不如RDD，如果你是大神你应该用的是RDD。2.reduceByKey和groupbykey：reduceByKey会在map端先进行reduce聚合操作，而groupbykey不会提前进行聚合操作，把所有的数据全部传到reduce端，shuf...

2018-04-27 10:42:31 531

转载 Spark性能优化 - shuffle问题

转载地址：http://www.raychase.net/3788转载作者：《四火的唠叨》Spark的性能分析和调优很有意思，今天再写一篇。主要话题是shuffle，当然也牵涉一些其他代码上的小把戏。以前写过一篇文章，比较了几种不同场景的性能优化，包括portal的性能优化，web service的性能优化，还有Spark job的性能优化。Spark的性能优化有一些特殊的地方，比如实时性一般不在...

2018-04-23 19:49:58 775

转载 leetCode Merge Intervals 合并区间/Insert Interval 插入区间

记录地址：http://www.cnblogs.com/grandyang/p/4367569.htmlhttp://www.cnblogs.com/grandyang/p/4370601.html

2018-04-21 21:58:32 158

原创 spark源码学习（六）- Worker向Master注册过程

背景当使用start-slaves.sh启动Worker实例的时候，启动的实际上是Worker.scala的实例，启动之后，就会向Master进行注册，注意Executor启动的时候并不会向Master注册，原因请看博文：点击打开链接，具体的Master注册过程如下文涉及到的文件： (1) Worker.scala (2) Mast...

2018-04-20 10:13:58 457

转载启动命令以及web-ui-port hdfs/hadoop/spark/yarn/hive/hbase/storm/zookeeper/Hcatalog......

转载地址：https://blog.csdn.net/baibenny/article/details/53887422组件开启关闭WEB UI端口号jps显示Falocnbin/falcon-startbin/falcon-stop15443FalconserverOoziebin/oozied.sh startbin/oozied.sh stop11000BootstrapHivehiveex...

2018-04-19 22:02:47 297

转载 leetCode28 strStr kmp 解法

转载地址：博主：c_cloud http://www.cnblogs.com/c-cloud/p/3224788.html转载 leetCode28 strStr，最简单的方法是循环比较然后回溯，但是效率比较低，比较合适而且出名的方法是使用kmp方法，不需要回溯，时间复杂度log(n),Macgic!! 下面是一片博主写的，很 nice，转载一下：前言　　　　之前对km...

2018-04-18 20:15:12 260

转载 scala map 小括号与大括号

原文地址：http://hongjiang.info/scala-pitfalls-2/spark编程的时候的时候看到这样的一个用法：作为接触scala两天半的我有些看不明白了。好一番搜索看到这样的答案：下面的问题，表面上看是小括号与花括号的问题。// map方法这样写不能编译通过scala> List(2).map( case 2 => "OK" )// 换做花括号就可以了scala...

2018-04-15 19:00:24 5350 3

原创 spark - 小实践（3）用户消费记录信息挖掘

背景本次将使用某网站的消费和访问记录来进行相关用户行为的挖掘练习，相关测试数据文件已经上传csdn，下载地址：https://download.csdn.net/download/u013560925/10342224a.数据格式本次使用数据分为json和parquet两种，parquet作为列式存储，在存储空间和运行效率上都非常有优势，很适合用在工业生产中，详情见...

2018-04-11 20:07:29 33123

转载 leetCode - 面试刷题指南（1）

搜集的关于leetCode中面试经常出现的题目，相关信息如下，转载原文章地址为： https://blog.csdn.net/yutianzuijin/article/details/11477603/ 信息如下：ID问题频率数据结构算法1Two Sum5array、setsort、Two Pointers8String to Integer (atoi)5stringM...

2018-04-10 09:55:26 998

原创 spark - 小实践（2）dataset实战

背景 spark官方example文件夹中提供了people.json的一份测试数据，并结合官方dataset使用方式的介绍，我们可以做一些练习,准备好的数据可以到这里下载：https://download.csdn.net/download/u013560925/10342251。数据json读取时候的dataframe格式如下： people.json:对应用户姓名和...

2018-04-10 09:44:35 1203

原创 Spark 如何快速准确的查询 spark.api使用方式

背景今天在做一个spark dataset练习的时候，遇到一个agg聚合函数，但是怎么用，都编译不过，然后百度啥的给的也不权威，最后找到一个spark官方的api网站，有较为详细的使用介绍。正文网站网址： http://spark.apache.org/docs/2.2.1/api/java/allclasses-noframe.html 网站截图：搜索类别，点击进入...

2018-04-09 16:14:33 2590

原创 Spark的spark.sql.warehouse.dir相关

背景 1.今天看到spark中关于sql的配置spark.sql.warehouse.dir的配置选项，不太明白其作用，正好官网有一段关于此的介绍，正好试验一下。 2.修改spark.sql.warehouse.dir无效，没有起作用，表信息还是放到了默认路径下，而不是我们指定的路径 3.此外，如果该选项处理不好的话，会报出的错误：报错情况如下：Ex...

2018-04-08 22:06:00 27083 3

原创 spark - 电影信息挖掘小实践（1）

背景网上有一些公开的数据集，可以供我们使用，做一些联系，本次使用的是常见的电影评分数据集，数据集比较容易获取，百度即可，这里只给出电影数据集的格式： 1.users.dat UserID::Gender::Age::Occupatoin::Zip-Code2.ratings.datUserID::MovieID::Rating::Timestamp3.movies.datMovieI...

2018-04-06 11:29:08 1093 1