自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (6)
  • 收藏
  • 关注

原创 spark - 性能优化小keys

1.Spark现在主推的是dataset的api,越来越多的算子可以基于dataset去做,dataset基于天然自带的优化引擎,但是dataset操控能力不如RDD,如果你是大神你应该用的是RDD。2.reduceByKey和groupbykey:reduceByKey会在map端先进行reduce聚合操作,而groupbykey不会提前进行聚合操作,把所有的数据全部传到reduce端,shuf...

2018-04-27 10:42:31 531

转载 Spark性能优化 - shuffle问题

转载地址:http://www.raychase.net/3788转载作者:《四火的唠叨》Spark的性能分析和调优很有意思,今天再写一篇。主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如实时性一般不在...

2018-04-23 19:49:58 775

转载 leetCode Merge Intervals 合并区间/Insert Interval 插入区间

记录地址:http://www.cnblogs.com/grandyang/p/4367569.htmlhttp://www.cnblogs.com/grandyang/p/4370601.html

2018-04-21 21:58:32 158

原创 spark源码学习(六)- Worker向Master注册过程

背景         当使用start-slaves.sh启动Worker实例的时候,启动的实际上是Worker.scala的实例,启动之后,就会向Master进行注册,注意Executor启动的时候并不会向Master注册,原因请看博文:点击打开链接,具体的Master注册过程如下文涉及到的文件:             (1) Worker.scala             (2) Mast...

2018-04-20 10:13:58 457

转载 启动命令以及web-ui-port hdfs/hadoop/spark/yarn/hive/hbase/storm/zookeeper/Hcatalog......

转载地址:https://blog.csdn.net/baibenny/article/details/53887422组件开启关闭WEB UI端口号jps显示Falocnbin/falcon-startbin/falcon-stop15443FalconserverOoziebin/oozied.sh startbin/oozied.sh stop11000BootstrapHivehiveex...

2018-04-19 22:02:47 297

转载 leetCode28 strStr kmp 解法

转载地址:博主:c_cloud   http://www.cnblogs.com/c-cloud/p/3224788.html转载       leetCode28 strStr,最简单的方法是循环比较然后回溯,但是效率比较低,比较合适而且出名的方法是使用kmp方法,不需要回溯,时间复杂度log(n),Macgic!!       下面是一片博主写的,很 nice,转载一下:前言    之前对km...

2018-04-18 20:15:12 260

转载 scala map 小括号与大括号

原文地址:http://hongjiang.info/scala-pitfalls-2/spark编程的时候的时候看到这样的一个用法:作为接触scala两天半的我有些看不明白了。好一番搜索看到这样的答案:下面的问题,表面上看是小括号与花括号的问题。// map方法这样写不能编译通过scala> List(2).map( case 2 => "OK" )// 换做花括号就可以了scala...

2018-04-15 19:00:24 5350 3

原创 spark - 小实践(3)用户消费记录信息挖掘

背景         本次将使用某网站的消费和访问记录来进行相关用户行为的挖掘练习,相关测试数据文件已经上传csdn,下载地址:https://download.csdn.net/download/u013560925/10342224a.数据格式       本次使用数据分为json和parquet两种,parquet作为列式存储,在存储空间和运行效率上都非常有优势,很适合用在工业生产中,详情见...

2018-04-11 20:07:29 33123

转载 leetCode - 面试刷题指南 (1)

     搜集的关于leetCode中面试经常出现的题目,相关信息如下,转载原文章地址为:     https://blog.csdn.net/yutianzuijin/article/details/11477603/     信息如下:ID问题频率数据结构算法1Two Sum5array、setsort、Two Pointers8String to Integer (atoi)5stringM...

2018-04-10 09:55:26 998

原创 spark - 小实践(2)dataset实战

背景     spark官方example文件夹中提供了people.json的一份测试数据,并结合官方dataset使用方式的介绍,我们可以做一些练习,准备好的数据可以到这里下载:https://download.csdn.net/download/u013560925/10342251。     数据json读取时候的dataframe格式如下:     people.json:对应用户姓名和...

2018-04-10 09:44:35 1203

原创 Spark 如何快速准确的查询 spark.api使用方式

背景        今天在做一个spark dataset练习的时候,遇到一个agg聚合函数,但是怎么用,都编译不过,然后百度啥的给的也不权威,最后找到一个spark官方的api网站,有较为详细的使用介绍。正文网站    网址: http://spark.apache.org/docs/2.2.1/api/java/allclasses-noframe.html    网站截图:搜索类别,点击进入...

2018-04-09 16:14:33 2590

原创 Spark的spark.sql.warehouse.dir相关

背景         1.今天看到spark中关于sql的配置spark.sql.warehouse.dir的配置选项,不太明白其作用,正好官网有一段关于此的介绍,正好试验一下。         2.修改spark.sql.warehouse.dir无效,没有起作用,表信息还是放到了默认路径下,而不是我们指定的路径         3.此外,如果该选项处理不好的话,会报出的错误:报错情况如下:Ex...

2018-04-08 22:06:00 27083 3

原创 spark - 电影信息挖掘小实践(1)

背景       网上有一些公开的数据集,可以供我们使用,做一些联系,本次使用的是常见的电影评分数据集,数据集比较容易获取,百度即可,这里只给出电影数据集的格式: 1.users.dat UserID::Gender::Age::Occupatoin::Zip-Code2.ratings.datUserID::MovieID::Rating::Timestamp3.movies.datMovieI...

2018-04-06 11:29:08 1093 1

Spark-2-4-PDF

spark2.4官方介绍PPT,PDF版本,没有大的变化,sql api增加和新的调度模型

2018-09-21

手机基站数据Demo

手机基站数据,用于练习spark 实践,已经测试过,手机基站数据,用于练习spark 实践,已经测试过

2018-05-20

spark - 小实践(2)-- 模拟数据

spark - 小实践(2)dataset实战测试数据 people.json peopleScore.json

2018-04-11

小实践3-测试数据 - 用户行为数据-user.json/log.json

user.json log.json userparquet.parquet logparquet.parquet

2018-04-11

spring-jdbc-2.5.6.jar

可用,本人亲测,应该不会出现确实什么东西的现象

2015-05-02

commons-dbcp-1.2

本人亲测可用,如果,在开发过程中遇到了什么问题,可以联系我

2015-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除