自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我丶怀念的的博客

spark,scala,hive

  • 博客(11)
  • 收藏
  • 关注

转载 Elasticsearch 条件搜索

搜索APIES提供了两种搜索的方式:请求参数方式 和 请求体方式。请求参数方式curl 'localhost:9200/bank/_search?q=*&pretty'其中bank是查询的索引名称,q后面跟着搜索的条件:q=*表示查询所有的内容请求体方式(推荐这种方式)curl -XPOST 'localhost:9200/bank/_search?pretty...

2018-09-04 11:39:21 1168

转载 spark数据倾斜的解决方案

数据倾斜调优简述有时候,大家可能会遇到大数据开发过程中一个比较棘手的问题,那就是数据倾斜,此时Spark作业的性能会比预期差很多,数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三...

2018-08-27 17:34:56 641

原创 很不错的的kafka详解

1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic、发送消息、消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件?6.producer是否直接将数据发送到broker的leader(主节点)?7.Kafa consumer是否可以消费指定分区消息?8.Kafka消息是采用Pull模式,还是Push模式?9.Pr...

2018-08-21 14:04:23 30086 6

原创 ElasticSearch索引查询指令

用过 ElasticSearch的很多都记不住指令操作。个人总结了些我们通常用_cat检测集群是否健康。 确保9200端口号可用:  curl 'localhost:9200/_cat/health?v'   绿色表示一切正常, 黄色表示所有的数据可用但是部分副本还没有分配,红色表示部分数据因为某些原因不可用.   2.通过如下语句,我们可以获取集群的节点列表:  cu...

2018-08-14 19:37:13 5638

原创 Kafka + Spark Streaming + Redis 实战项目

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。我们...

2018-08-13 21:17:54 3844

原创 Hive2.0函数

Hive2.0函数大全目录数学函数 集合函数 类型转换函数 日期函数 条件函数 字符函数 聚合函数 表生成函数  数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) ...

2018-08-13 20:31:13 185

原创 spark官方配置参数详解

以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的 conf/spark-env.sh脚本设置。例如IP地址、端口等信息 日志配置:可以通过log4j.properties配置Spa...

2018-08-13 18:38:17 1416

原创 spark常见问题错误 汇总

 一.经验1.Spark Streaming包含三种计算模式:nonstate .stateful .window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。5.kafka的log.dirs不要设置成/tmp下的目录,貌似...

2018-08-13 18:25:29 5577

原创 Scala中处理正则

object ScalaRegex { def main(args: Array[String]): Unit = { //例子一整个字符串匹配模式 println("51".matches("""\d+"""))//true //例子二查询是否包含复合正则的模式 println("""\d+""&qu

2018-08-13 18:05:41 940

转载 Jedis操作Redis

原文链接:http://blog.csdn.net/xyang81/article/details/51918129在Maven中引用jedis的jar:<dependencies> <dependency> <groupId>junit</groupId> <artifactId>jun...

2018-08-13 18:01:38 496

原创 spark 关于spark-submit 参数调优策略

--sparksubmit   --num-executors          该参数主要用于设置该应用总共需要多少executors来执行,Driver在向集群资源管理器申请资源时需要根据此参数决定分配的Executor个数,并尽量满足所需。在不带的情况下只会分配少量Executor。这个值得设置还是要看分配的队列的资源情况,太少了无法充分利用集群资源,太多了则难以分配需要的资源。  ...

2018-08-13 14:26:00 3754

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除